diff --git a/stats/compression_rate.json b/stats/compression_rate.json index 52ab057cab30733d578945e30717d3a3f56b14f8..993549bef75cc8128e125ed943b0f70e1665a48d 100644 --- a/stats/compression_rate.json +++ b/stats/compression_rate.json @@ -11554,5 +11554,113 @@ "oov_ratio": 0.0, "_oov_charset": "[]", "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/ar": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 2813283, + "_n_tokens": 506372, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/de": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 1814876, + "_n_tokens": 472827, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/en": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 1124813, + "_n_tokens": 250214, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/es": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 1664455, + "_n_tokens": 350840, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/fa": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 2054052, + "_n_tokens": 588529, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/fr": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 1540504, + "_n_tokens": 338262, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/ja": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 1774770, + "_n_tokens": 267106, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/ko": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 1524839, + "_n_tokens": 364871, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"良\", \"流\", \"樂\", \"靈\", \"陸\", \"金\", \"樂\", \"識\", \"不\", \"女\", \"累\", \"立\", \"理\", \"龍\", \"梁\"]", + "lossless": false + }, + "MiniMaxAI/MiniMax-Text-01 @ cc100/zh-Hans": { + "tokenizer": "MiniMax-Text-01", + "organization": "MiniMax", + "vocab_size": 200026, + "_n_bytes": 2633047, + "_n_tokens": 512803, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true } } \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json index bfe135345762a72aa875f0a4df2a6674aace192a..de881e5b03d293c45a6efa73a67262abe28cd1eb 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json @@ -1,194 +1,194 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.", - "diff": [ - "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", - "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", - "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", - "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'", - "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'", - "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'", - "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'", - "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'", - "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'", - "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'", - "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", - "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'", - "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", - "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'", - "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'" - ], - "n_oov_chars": 20, - "oov_ratio": 0.07142857142857142, - "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", - "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", - "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'", - "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.0759493670886076, - "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", - "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", - "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", - "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'", - "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'", - "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.05825242718446602, - "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", - "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.08, - "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", - "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", - "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", - "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", - "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", - "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", - "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'", - "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'", - "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'", - "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'", - "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'", - "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'", - "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'", - "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'", - "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'", - "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'", - "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", - "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'", - "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'", - "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'" - ], - "n_oov_chars": 33, - "oov_ratio": 0.048672566371681415, - "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", - "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", - "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", - "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", - "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'", - "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'", - "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", - "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", - "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'", - "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'", - "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'", - "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'" - ], - "n_oov_chars": 18, - "oov_ratio": 0.04072398190045249, - "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.", - "diff": [ - "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", - "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", - "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''", - "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'", - "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", - "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'", - "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'", - "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'", - "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'", - "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'", - "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", - "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'", - "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", - "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", - "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", - "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", - "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.07407407407407407, - "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", - "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", - "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", - "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", - "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", - "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", - "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", - "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.042328042328042326, - "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);", - "diff": [ - "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", - "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", - "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", - "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'", - "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'", - "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'", - "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'", - "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'", - "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'", - "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'", - "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.05789473684210526, - "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'", + "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'", + "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'", + "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'", + "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'", + "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'", + "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'", + "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'", + "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.07142857142857142, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'", + "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.0759493670886076, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'", + "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'", + "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05825242718446602, + "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.08, + "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'", + "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'", + "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'", + "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'", + "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'", + "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'", + "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'", + "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'", + "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'", + "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'", + "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'", + "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'", + "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.048672566371681415, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'", + "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'", + "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'", + "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'", + "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.04072398190045249, + "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''", + "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'", + "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'", + "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'", + "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'", + "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'", + "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'", + "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.042328042328042326, + "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'", + "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'", + "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'", + "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.05789473684210526, + "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json index 9b5cb271c356e920aa35eb5479e3f245e6933bf8..de8e1a6a4cf6050d8e169173645e361b95645644 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json @@ -1,123 +1,123 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'", - "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'", - "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", - "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'", - "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'", - "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'", - "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'", - "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'", - "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", - "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'", - "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'", - "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'", + "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'", + "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'", + "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'", + "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'", + "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'", + "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'", + "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'", + "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json index 44e93d8908c5476ead5dec923971e2a331ec8cf1..c683473b7795d3a0772edfeaef5081f7e5c94a07 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json @@ -1,114 +1,114 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'", - "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'", - "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'", - "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.026785714285714284, - "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01282051282051282, - "oov_charset": "[\"H\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'", - "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.026881720430107527, - "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"E\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"A\", \"L\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el período o períodos de su disfrute se fijará de común", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"E\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015151515151515152, - "oov_charset": "[\"E\"]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03333333333333333, - "oov_charset": "[\"A\", \"L\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'", + "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'", + "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'", + "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.026785714285714284, + "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"H\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'", + "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.026881720430107527, + "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"A\", \"L\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el período o períodos de su disfrute se fijará de común", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"E\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03333333333333333, + "oov_charset": "[\"A\", \"L\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json index e1235ed709db31f4e825ca2a1bac712f90a377ea..a388366fcdc49298181deac5ec2568cb29fd0bab 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "آشپزخانه کوچک من: february 2012", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"F\"]" - }, - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest", - "diff": [ - "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", - "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'", - "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.022900763358778626, - "oov_charset": "[\"T\", \"F\", \"P\"]" - }, - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "آشپزخانه کوچک من: february 2012", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"F\"]" + }, + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", + "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'", + "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.022900763358778626, + "oov_charset": "[\"T\", \"F\", \"P\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json index a6dc29dcb3fdaf4cfae16df99b5d58f980d103e0..4e011de1d679e842aec0d23145f941c35545daf2 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007751937984496124, - "oov_charset": "[\"B\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011764705882352941, - "oov_charset": "[\"V\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.014705882352941176, - "oov_charset": "[\"E\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004098360655737705, - "oov_charset": "[\"J\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008547008547008548, - "oov_charset": "[\"J\", \"P\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010416666666666666, - "oov_charset": "[\"J\", \"E\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.012738853503184714, - "oov_charset": "[\"J\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois être mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"J\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01818181818181818, - "oov_charset": "[\"J\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006711409395973154, - "oov_charset": "[\"J\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"B\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011764705882352941, + "oov_charset": "[\"V\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"E\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004098360655737705, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"J\", \"P\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010416666666666666, + "oov_charset": "[\"J\", \"E\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.012738853503184714, + "oov_charset": "[\"J\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois être mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"J\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006711409395973154, + "oov_charset": "[\"J\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json index 49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8..4d853773ba7960c544d8888ba1128444db76d0cb 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"!\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023809523809523808, - "oov_charset": "[\"?\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"?\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json index 47bd971103cce3b4ca2d2f400e64eaa54e7c507f..f2081286dab538a4486f4c9d87f3d7d82199ec4e 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json @@ -1,111 +1,111 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ home > 라이브스코어", - "diff": [ - "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.26666666666666666, - "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "diff": [ - "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'", - "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'", - "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'", - "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'", - "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'", - "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.05405405405405406, - "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]" - }, - { - "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.", - "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.", - "diff": [ - "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03, - "oov_charset": "[\"E\", \"P\", \"L\"]" - }, - { - "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", - "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", - "diff": [ - "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.009345794392523364, - "oov_charset": "[\"N\"]" - }, - { - "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", - "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", - "diff": [ - "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.04807692307692308, - "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]" - }, - { - "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", - "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", - "diff": [ - "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.04878048780487805, - "oov_charset": "[\"A\", \"G\"]" - }, - { - "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", - "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", - "diff": [ - "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.021739130434782608, - "oov_charset": "[\"P\", \"O\"]" - }, - { - "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.", - "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.", - "diff": [ - "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'", - "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.05128205128205128, - "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]" - }, - { - "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", - "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'", - "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'", - "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024193548387096774, - "oov_charset": "[\"A\", \"C\", \"D\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > 라이브스코어", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.26666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'", + "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'", + "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'", + "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'", + "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05405405405405406, + "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]" + }, + { + "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.", + "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.", + "diff": [ + "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03, + "oov_charset": "[\"E\", \"P\", \"L\"]" + }, + { + "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "diff": [ + "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"N\"]" + }, + { + "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "diff": [ + "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04807692307692308, + "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]" + }, + { + "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "diff": [ + "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04878048780487805, + "oov_charset": "[\"A\", \"G\"]" + }, + { + "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "diff": [ + "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"P\", \"O\"]" + }, + { + "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.", + "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.", + "diff": [ + "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'", + "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]" + }, + { + "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'", + "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'", + "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024193548387096774, + "oov_charset": "[\"A\", \"C\", \"D\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json index b12664611cc4c97a6c7b6f3e986bc9e1dfe9d6f0..1e715ee493cb203b698b70157a22ab59a962f68f 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json @@ -1,163 +1,163 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04205607476635514, - "oov_charset": "[\",\", \"S\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'", - "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'", - "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'", - "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 16, - "oov_ratio": 0.07960199004975124, - "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04205607476635514, + "oov_charset": "[\",\", \"S\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'", + "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'", + "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'", + "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 16, + "oov_ratio": 0.07960199004975124, + "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json index ee3d4e568b6ab2b64676d3aa0b54aadaaa6b0735..572ff6384c9289c48e7da2e641fcd12ffa45a41c 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC", - "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc", - "diff": [ - "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.07017543859649122, - "oov_charset": "[\"C\", \"N\", \"B\"]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC", + "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc", + "diff": [ + "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.07017543859649122, + "oov_charset": "[\"C\", \"N\", \"B\"]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json index bfe135345762a72aa875f0a4df2a6674aace192a..de881e5b03d293c45a6efa73a67262abe28cd1eb 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json @@ -1,194 +1,194 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.", - "diff": [ - "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", - "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", - "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", - "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'", - "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'", - "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'", - "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'", - "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'", - "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'", - "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'", - "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", - "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'", - "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", - "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'", - "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'" - ], - "n_oov_chars": 20, - "oov_ratio": 0.07142857142857142, - "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", - "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", - "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'", - "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.0759493670886076, - "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", - "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", - "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", - "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'", - "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'", - "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.05825242718446602, - "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", - "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.08, - "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", - "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", - "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", - "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", - "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", - "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", - "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'", - "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'", - "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'", - "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'", - "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'", - "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'", - "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'", - "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'", - "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'", - "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'", - "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", - "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'", - "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'", - "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'" - ], - "n_oov_chars": 33, - "oov_ratio": 0.048672566371681415, - "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", - "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", - "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", - "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", - "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'", - "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'", - "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", - "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", - "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'", - "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'", - "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'", - "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'" - ], - "n_oov_chars": 18, - "oov_ratio": 0.04072398190045249, - "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.", - "diff": [ - "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", - "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", - "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''", - "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'", - "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", - "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'", - "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'", - "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'", - "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'", - "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'", - "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", - "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'", - "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", - "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", - "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", - "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", - "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.07407407407407407, - "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", - "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", - "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", - "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", - "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", - "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", - "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", - "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.042328042328042326, - "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);", - "diff": [ - "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", - "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", - "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", - "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'", - "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'", - "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'", - "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'", - "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'", - "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'", - "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'", - "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.05789473684210526, - "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'", + "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'", + "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'", + "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'", + "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'", + "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'", + "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'", + "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'", + "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.07142857142857142, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'", + "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.0759493670886076, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'", + "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'", + "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05825242718446602, + "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.08, + "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'", + "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'", + "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'", + "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'", + "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'", + "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'", + "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'", + "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'", + "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'", + "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'", + "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'", + "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'", + "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.048672566371681415, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'", + "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'", + "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'", + "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'", + "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.04072398190045249, + "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''", + "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'", + "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'", + "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'", + "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'", + "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'", + "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'", + "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.042328042328042326, + "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'", + "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'", + "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'", + "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.05789473684210526, + "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json index 9b5cb271c356e920aa35eb5479e3f245e6933bf8..de8e1a6a4cf6050d8e169173645e361b95645644 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json @@ -1,123 +1,123 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'", - "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'", - "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", - "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'", - "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'", - "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'", - "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'", - "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'", - "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", - "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'", - "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'", - "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'", + "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'", + "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'", + "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'", + "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'", + "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'", + "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'", + "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'", + "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json index 44e93d8908c5476ead5dec923971e2a331ec8cf1..c683473b7795d3a0772edfeaef5081f7e5c94a07 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json @@ -1,114 +1,114 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'", - "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'", - "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'", - "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.026785714285714284, - "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01282051282051282, - "oov_charset": "[\"H\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'", - "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.026881720430107527, - "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"E\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"A\", \"L\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el período o períodos de su disfrute se fijará de común", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"E\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015151515151515152, - "oov_charset": "[\"E\"]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03333333333333333, - "oov_charset": "[\"A\", \"L\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'", + "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'", + "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'", + "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.026785714285714284, + "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"H\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'", + "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.026881720430107527, + "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"A\", \"L\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el período o períodos de su disfrute se fijará de común", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"E\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03333333333333333, + "oov_charset": "[\"A\", \"L\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json index e1235ed709db31f4e825ca2a1bac712f90a377ea..a388366fcdc49298181deac5ec2568cb29fd0bab 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "آشپزخانه کوچک من: february 2012", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"F\"]" - }, - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest", - "diff": [ - "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", - "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'", - "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.022900763358778626, - "oov_charset": "[\"T\", \"F\", \"P\"]" - }, - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "آشپزخانه کوچک من: february 2012", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"F\"]" + }, + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", + "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'", + "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.022900763358778626, + "oov_charset": "[\"T\", \"F\", \"P\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json index a6dc29dcb3fdaf4cfae16df99b5d58f980d103e0..4e011de1d679e842aec0d23145f941c35545daf2 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007751937984496124, - "oov_charset": "[\"B\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011764705882352941, - "oov_charset": "[\"V\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.014705882352941176, - "oov_charset": "[\"E\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004098360655737705, - "oov_charset": "[\"J\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008547008547008548, - "oov_charset": "[\"J\", \"P\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010416666666666666, - "oov_charset": "[\"J\", \"E\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.012738853503184714, - "oov_charset": "[\"J\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois être mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"J\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01818181818181818, - "oov_charset": "[\"J\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006711409395973154, - "oov_charset": "[\"J\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"B\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011764705882352941, + "oov_charset": "[\"V\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"E\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004098360655737705, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"J\", \"P\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010416666666666666, + "oov_charset": "[\"J\", \"E\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.012738853503184714, + "oov_charset": "[\"J\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois être mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"J\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006711409395973154, + "oov_charset": "[\"J\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json index 49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8..4d853773ba7960c544d8888ba1128444db76d0cb 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"!\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023809523809523808, - "oov_charset": "[\"?\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"?\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json index 47bd971103cce3b4ca2d2f400e64eaa54e7c507f..f2081286dab538a4486f4c9d87f3d7d82199ec4e 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json @@ -1,111 +1,111 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ home > 라이브스코어", - "diff": [ - "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.26666666666666666, - "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "diff": [ - "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'", - "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'", - "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'", - "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'", - "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'", - "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.05405405405405406, - "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]" - }, - { - "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.", - "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.", - "diff": [ - "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03, - "oov_charset": "[\"E\", \"P\", \"L\"]" - }, - { - "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", - "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", - "diff": [ - "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.009345794392523364, - "oov_charset": "[\"N\"]" - }, - { - "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", - "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", - "diff": [ - "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.04807692307692308, - "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]" - }, - { - "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", - "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", - "diff": [ - "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.04878048780487805, - "oov_charset": "[\"A\", \"G\"]" - }, - { - "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", - "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", - "diff": [ - "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.021739130434782608, - "oov_charset": "[\"P\", \"O\"]" - }, - { - "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.", - "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.", - "diff": [ - "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'", - "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.05128205128205128, - "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]" - }, - { - "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", - "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'", - "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'", - "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024193548387096774, - "oov_charset": "[\"A\", \"C\", \"D\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > 라이브스코어", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.26666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'", + "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'", + "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'", + "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'", + "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05405405405405406, + "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]" + }, + { + "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.", + "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.", + "diff": [ + "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03, + "oov_charset": "[\"E\", \"P\", \"L\"]" + }, + { + "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "diff": [ + "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"N\"]" + }, + { + "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "diff": [ + "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04807692307692308, + "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]" + }, + { + "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "diff": [ + "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04878048780487805, + "oov_charset": "[\"A\", \"G\"]" + }, + { + "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "diff": [ + "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"P\", \"O\"]" + }, + { + "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.", + "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.", + "diff": [ + "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'", + "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]" + }, + { + "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'", + "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'", + "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024193548387096774, + "oov_charset": "[\"A\", \"C\", \"D\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json index b12664611cc4c97a6c7b6f3e986bc9e1dfe9d6f0..1e715ee493cb203b698b70157a22ab59a962f68f 100644 --- a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json @@ -1,163 +1,163 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04205607476635514, - "oov_charset": "[\",\", \"S\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'", - "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'", - "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'", - "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 16, - "oov_ratio": 0.07960199004975124, - "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04205607476635514, + "oov_charset": "[\",\", \"S\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'", + "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'", + "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'", + "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 16, + "oov_ratio": 0.07960199004975124, + "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json index 19d6c53867a33cf11a112ebbbef5852943f6481f..0ebea5fffad2862b4d18b1eeb773ecd858d7dbb0 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json @@ -1,177 +1,177 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللا / ل اللا - ا.. ( 1)", - "diff": [ - "replace text[5:6] --> decoded_text[5:10] 'و' --> ''", - "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''", - "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''", - "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''", - "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''", - "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''", - "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''", - "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''", - "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''", - "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''" - ], - "n_oov_chars": 21, - "oov_ratio": 0.42, - "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" - }, - { - "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", - "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال..", - "diff": [ - "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> ' ا ال'", - "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> 'ا ا ل ا الا الا ال اا ا ال'", - "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> ' اا الاا ال '", - "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> 'ا الا'", - "replace text[150:151] --> decoded_text[231:236] 'م' --> ''", - "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> 'ل ا اا لا لا ل ل ال اا اال اا'", - "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> ' اا ا الاا'", - "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> ' اا اا للاا ال لاا'", - "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> ' الا ل ال ال اا '", - "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' اا اال ا ا ال ال ل الا الا'", - "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> ' اا الال ا الال ا الاا'", - "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> 'ا ا ال ا ال ال ل ال الاا'", - "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> 'ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال '", - "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> 'ا ل ال الا ال'", - "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> 'ل الا ل الا ال ال ال'", - "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> ''", - "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> 'ل لا ال ال ا ا ال ا ال'" - ], - "n_oov_chars": 567, - "oov_ratio": 0.5869565217391305, - "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" - }, - { - "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", - "decoded_text": "ال ا ال, ا الل ا , ال الا ل ا ال ا ا اا الا, ااا الا الل ال, ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا..", - "diff": [ - "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ال ا ال'", - "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> 'ا الل ا '", - "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> ' ال الا ل ا ال ا ا اا الا'", - "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> ' ااا الا الل ال'", - "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> ' ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا'" - ], - "n_oov_chars": 208, - "oov_ratio": 0.6135693215339233, - "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" - }, - { - "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", - "decoded_text": "لا الل ا ا لا الل.. الل ا ال الل ال ل لا ل ا..", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'وك' --> ''", - "replace text[4:5] --> decoded_text[7:12] 'م' --> ''", - "replace text[8:11] --> decoded_text[15:20] 'رسو' --> ''", - "replace text[13:16] --> decoded_text[22:27] 'وأح' --> ''", - "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> ''", - "replace text[22:23] --> decoded_text[34:39] 'م' --> ''", - "replace text[25:27] --> decoded_text[41:46] 'هي' --> ''", - "replace text[28:29] --> decoded_text[47:52] 'إ' --> ''", - "replace text[32:35] --> decoded_text[55:60] 'وحي' --> ''", - "replace text[36:38] --> decoded_text[61:66] 'من' --> ''", - "replace text[42:43] --> decoded_text[70:75] 'ه' --> ''", - "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> ''", - "replace text[52:54] --> decoded_text[84:89] 'أن' --> ''", - "replace text[57:59] --> decoded_text[92:97] 'عم' --> ''", - "replace text[61:63] --> decoded_text[99:104] 'بم' --> ''", - "replace text[65:66] --> decoded_text[106:111] 'ق' --> ''", - "replace text[68:69] --> decoded_text[113:118] 'ه' --> ''", - "replace text[72:75] --> decoded_text[121:126] 'رسو' --> ''", - "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> ''", - "replace text[84:86] --> decoded_text[136:141] 'هو' --> ''", - "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> ''", - "replace text[92:94] --> decoded_text[148:153] 'ية' --> ''", - "replace text[95:97] --> decoded_text[154:159] 'أخ' --> ''", - "replace text[99:102] --> decoded_text[161:166] 'قية' --> ''", - "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> ''", - "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> ''", - "replace text[116:118] --> decoded_text[179:184] 'ية' --> ''", - "replace text[119:121] --> decoded_text[185:190] 'سي' --> ''", - "replace text[122:125] --> decoded_text[191:196] 'سية' --> ''" - ], - "n_oov_chars": 74, - "oov_ratio": 0.5826771653543307, - "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" - }, - { - "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", - "decoded_text": "ل ا ال الا ا , ل ال ل ال ال ل الا الا ا ا ا ا الل ال..", - "diff": [ - "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> 'ل ا ال الا ا '", - "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> 'ل ال ل ال ال ل الا الا ا ا ا ا الل ال'" - ], - "n_oov_chars": 84, - "oov_ratio": 0.5874125874125874, - "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" - }, - { - "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", - "decoded_text": "ل الاا الا الاا, الاا ا ل ا ا الل ل ال ل لا الل لا ل ل..", - "diff": [ - "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> 'ل الاا الا الاا'", - "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> ' الاا ا ل ا ا الل ل ال ل لا الل لا ل ل'" - ], - "n_oov_chars": 91, - "oov_ratio": 0.5796178343949044, - "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "ا لا ا الا ا ا الل ل ا .. ل ال- ل لا ال, ل لال, ا الا ل الا ا, ل ال ا لا ل لا..", - "diff": [ - "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> 'ا لا ا الا ا ا الل ل ا '", - "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> ' ل ال'", - "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> ' ل لا ال'", - "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> 'ل '", - "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> ' ا الا ل الا '", - "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> 'ل ال ا لا ل لا'" - ], - "n_oov_chars": 132, - "oov_ratio": 0.584070796460177, - "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" - }, - { - "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", - "decoded_text": "ال الا الا ل ال الا الا للا, ل لا ل لا.. الا الا ال ال, ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا ل, ا ا ال ال الل ل ا ا ال ل ل ا الا ال, ..!", - "diff": [ - "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> ' الا الا ل ال الا الا للا'", - "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> ' لا ل ل'", - "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> 'الا الا ال ال'", - "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> ' ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا '", - "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> ' ا ا ال ال الل ل ا ا ال ل ل ا الا ال'", - "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> ' '", - "replace text[405:406] --> decoded_text[648:653] '؟' --> ''" - ], - "n_oov_chars": 243, - "oov_ratio": 0.597051597051597, - "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" - }, - { - "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", - "decoded_text": "ل ا الا ل ا ل لا ا ال ل ا ل لا.. ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل !!", - "diff": [ - "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> 'ل ا الا ل ا ل لا ا ال ل ا ل لا'", - "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> ' ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل '" - ], - "n_oov_chars": 156, - "oov_ratio": 0.631578947368421, - "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" - }, - { - "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", - "decoded_text": "ال.. الل الا.. الل ال , ا, ا لا اا.. ال اا ل الاا الاا الل اا ا , الا, ا..", - "diff": [ - "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '.. الل الا.. الل ال '", - "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> 'ا'", - "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> 'ا لا اا.. ال اا ل الاا الاا الل اا ا '", - "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> ' الا'", - "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> ' ا..'" - ], - "n_oov_chars": 111, - "oov_ratio": 0.5721649484536082, - "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللا / ل اللا - ا.. ( 1)", + "diff": [ + "replace text[5:6] --> decoded_text[5:10] 'و' --> ''", + "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''", + "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''", + "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''", + "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''", + "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''", + "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''", + "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''", + "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''", + "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''" + ], + "n_oov_chars": 21, + "oov_ratio": 0.42, + "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال..", + "diff": [ + "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> ' ا ال'", + "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> 'ا ا ل ا الا الا ال اا ا ال'", + "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> ' اا الاا ال '", + "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> 'ا الا'", + "replace text[150:151] --> decoded_text[231:236] 'م' --> ''", + "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> 'ل ا اا لا لا ل ل ال اا اال اا'", + "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> ' اا ا الاا'", + "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> ' اا اا للاا ال لاا'", + "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> ' الا ل ال ال اا '", + "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' اا اال ا ا ال ال ل الا الا'", + "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> ' اا الال ا الال ا الاا'", + "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> 'ا ا ال ا ال ال ل ال الاا'", + "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> 'ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال '", + "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> 'ا ل ال الا ال'", + "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> 'ل الا ل الا ال ال ال'", + "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> ''", + "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> 'ل لا ال ال ا ا ال ا ال'" + ], + "n_oov_chars": 567, + "oov_ratio": 0.5869565217391305, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "ال ا ال, ا الل ا , ال الا ل ا ال ا ا اا الا, ااا الا الل ال, ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا..", + "diff": [ + "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ال ا ال'", + "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> 'ا الل ا '", + "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> ' ال الا ل ا ال ا ا اا الا'", + "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> ' ااا الا الل ال'", + "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> ' ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا'" + ], + "n_oov_chars": 208, + "oov_ratio": 0.6135693215339233, + "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "لا الل ا ا لا الل.. الل ا ال الل ال ل لا ل ا..", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'وك' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'م' --> ''", + "replace text[8:11] --> decoded_text[15:20] 'رسو' --> ''", + "replace text[13:16] --> decoded_text[22:27] 'وأح' --> ''", + "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> ''", + "replace text[22:23] --> decoded_text[34:39] 'م' --> ''", + "replace text[25:27] --> decoded_text[41:46] 'هي' --> ''", + "replace text[28:29] --> decoded_text[47:52] 'إ' --> ''", + "replace text[32:35] --> decoded_text[55:60] 'وحي' --> ''", + "replace text[36:38] --> decoded_text[61:66] 'من' --> ''", + "replace text[42:43] --> decoded_text[70:75] 'ه' --> ''", + "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> ''", + "replace text[52:54] --> decoded_text[84:89] 'أن' --> ''", + "replace text[57:59] --> decoded_text[92:97] 'عم' --> ''", + "replace text[61:63] --> decoded_text[99:104] 'بم' --> ''", + "replace text[65:66] --> decoded_text[106:111] 'ق' --> ''", + "replace text[68:69] --> decoded_text[113:118] 'ه' --> ''", + "replace text[72:75] --> decoded_text[121:126] 'رسو' --> ''", + "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> ''", + "replace text[84:86] --> decoded_text[136:141] 'هو' --> ''", + "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> ''", + "replace text[92:94] --> decoded_text[148:153] 'ية' --> ''", + "replace text[95:97] --> decoded_text[154:159] 'أخ' --> ''", + "replace text[99:102] --> decoded_text[161:166] 'قية' --> ''", + "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> ''", + "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> ''", + "replace text[116:118] --> decoded_text[179:184] 'ية' --> ''", + "replace text[119:121] --> decoded_text[185:190] 'سي' --> ''", + "replace text[122:125] --> decoded_text[191:196] 'سية' --> ''" + ], + "n_oov_chars": 74, + "oov_ratio": 0.5826771653543307, + "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "ل ا ال الا ا , ل ال ل ال ال ل الا الا ا ا ا ا الل ال..", + "diff": [ + "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> 'ل ا ال الا ا '", + "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> 'ل ال ل ال ال ل الا الا ا ا ا ا الل ال'" + ], + "n_oov_chars": 84, + "oov_ratio": 0.5874125874125874, + "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "ل الاا الا الاا, الاا ا ل ا ا الل ل ال ل لا الل لا ل ل..", + "diff": [ + "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> 'ل الاا الا الاا'", + "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> ' الاا ا ل ا ا الل ل ال ل لا الل لا ل ل'" + ], + "n_oov_chars": 91, + "oov_ratio": 0.5796178343949044, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "ا لا ا الا ا ا الل ل ا .. ل ال- ل لا ال, ل لال, ا الا ل الا ا, ل ال ا لا ل لا..", + "diff": [ + "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> 'ا لا ا الا ا ا الل ل ا '", + "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> ' ل ال'", + "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> ' ل لا ال'", + "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> 'ل '", + "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> ' ا الا ل الا '", + "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> 'ل ال ا لا ل لا'" + ], + "n_oov_chars": 132, + "oov_ratio": 0.584070796460177, + "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "ال الا الا ل ال الا الا للا, ل لا ل لا.. الا الا ال ال, ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا ل, ا ا ال ال الل ل ا ا ال ل ل ا الا ال, ..!", + "diff": [ + "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> ' الا الا ل ال الا الا للا'", + "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> ' لا ل ل'", + "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> 'الا الا ال ال'", + "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> ' ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا '", + "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> ' ا ا ال ال الل ل ا ا ال ل ل ا الا ال'", + "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> ' '", + "replace text[405:406] --> decoded_text[648:653] '؟' --> ''" + ], + "n_oov_chars": 243, + "oov_ratio": 0.597051597051597, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "ل ا الا ل ا ل لا ا ال ل ا ل لا.. ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل !!", + "diff": [ + "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> 'ل ا الا ل ا ل لا ا ال ل ا ل لا'", + "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> ' ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل '" + ], + "n_oov_chars": 156, + "oov_ratio": 0.631578947368421, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "ال.. الل الا.. الل ال , ا, ا لا اا.. ال اا ل الاا الاا الل اا ا , الا, ا..", + "diff": [ + "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '.. الل الا.. الل ال '", + "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> 'ا'", + "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> 'ا لا اا.. ال اا ل الاا الاا الل اا ا '", + "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> ' الا'", + "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> ' ا..'" + ], + "n_oov_chars": 111, + "oov_ratio": 0.5721649484536082, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json index 5de8e43c739a5399115bc40b1f43f48c7c6d6a4f..46104e7ab26b02b5b922f70fabc4c20dd03937ff 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "diff": [ - "replace text[58:59] --> decoded_text[58:63] '„' --> ''", - "replace text[202:203] --> decoded_text[206:211] '€' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.007142857142857143, - "oov_charset": "[\"„\", \"€\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der Püngel-Weihnacht“ an.", - "diff": [ - "replace text[57:58] --> decoded_text[57:62] '„' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012658227848101266, - "oov_charset": "[\"„\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlielich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "diff": [ - "replace text[619:620] --> decoded_text[619:624] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014749262536873156, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlieen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "diff": [ - "replace text[61:62] --> decoded_text[61:66] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0022624434389140274, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlielich zu Zwecken,", - "diff": [ - "replace text[64:65] --> decoded_text[64:69] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012345679012345678, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", - "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", - "diff": [ - "replace text[131:132] --> decoded_text[131:136] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0018867924528301887, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.", - "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis auer diesem Thread hier. Finde ich auch ein bisschen komisch.", - "diff": [ - "replace text[125:126] --> decoded_text[125:130] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", - "decoded_text": "Wei man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", - "diff": [ - "replace text[3:4] --> decoded_text[3:8] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007874015748031496, - "oov_charset": "[\"ß\"]" - }, - { - "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", - "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", - "diff": [ - "replace text[132:133] --> decoded_text[132:137] '„' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0036363636363636364, - "oov_charset": "[\"„\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] '„' --> ''", + "replace text[202:203] --> decoded_text[206:211] '€' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"„\", \"€\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der Püngel-Weihnacht“ an.", + "diff": [ + "replace text[57:58] --> decoded_text[57:62] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"„\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlielich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "diff": [ + "replace text[619:620] --> decoded_text[619:624] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014749262536873156, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlieen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[61:62] --> decoded_text[61:66] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0022624434389140274, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlielich zu Zwecken,", + "diff": [ + "replace text[64:65] --> decoded_text[64:69] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012345679012345678, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "diff": [ + "replace text[131:132] --> decoded_text[131:136] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0018867924528301887, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis auer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "diff": [ + "replace text[125:126] --> decoded_text[125:130] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "decoded_text": "Wei man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "diff": [ + "replace text[3:4] --> decoded_text[3:8] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"ß\"]" + }, + { + "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "diff": [ + "replace text[132:133] --> decoded_text[132:137] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0036363636363636364, + "oov_charset": "[\"„\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json index d22a93959dc662f1135f415167fcc23cf6c3572a..7235131029fef33e01ae1ca2f5168178d58992a2 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", - "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about 1.50.", - "diff": [ - "replace text[249:250] --> decoded_text[249:254] '£' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"£\"]" - }, - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "Would love some tatts, but too much of a wimp to get them! 😥", - "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", - "diff": [ - "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"😥\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", + "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about 1.50.", + "diff": [ + "replace text[249:250] --> decoded_text[249:254] '£' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"£\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json index 6d5c1d03b7edb92acc9db7e4d32848fd725d178d..f4560e145f1702c9f4e68e7c9686cf8fb1abe187 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "el año natural a que correspondan.", - "decoded_text": "el ao natural a que correspondan.", - "diff": [ - "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"ñ\"]" - }, - { - "text": "a la Empresa el 50% del periodo restante en la fecha señalada", - "decoded_text": "a la Empresa el 50% del periodo restante en la fecha sealada", - "diff": [ - "replace text[55:56] --> decoded_text[55:60] 'ñ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"ñ\"]" - }, - { - "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", - "decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los aos que están por venir.", - "diff": [ - "replace text[76:77] --> decoded_text[76:81] 'ñ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"ñ\"]" - }, - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un nio pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "delete text[206:207] --> decoded_text[206:206] '…' --> ''", - "replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... '", - "replace text[313:314] --> decoded_text[317:322] 'ñ' --> ''" - ], - "n_oov_chars": 5, - "oov_ratio": 0.007246376811594203, - "oov_charset": "[\"…\", \"¡\", \"ñ\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", - "decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo ao, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", - "diff": [ - "replace text[63:64] --> decoded_text[63:68] 'ñ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.003125, - "oov_charset": "[\"ñ\"]" - } +[ + { + "text": "el año natural a que correspondan.", + "decoded_text": "el ao natural a que correspondan.", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50% del periodo restante en la fecha sealada", + "diff": [ + "replace text[55:56] --> decoded_text[55:60] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", + "decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los aos que están por venir.", + "diff": [ + "replace text[76:77] --> decoded_text[76:81] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un nio pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "delete text[206:207] --> decoded_text[206:206] '…' --> ''", + "replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... '", + "replace text[313:314] --> decoded_text[317:322] 'ñ' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.007246376811594203, + "oov_charset": "[\"…\", \"¡\", \"ñ\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", + "decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo ao, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", + "diff": [ + "replace text[63:64] --> decoded_text[63:68] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003125, + "oov_charset": "[\"ñ\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json index e22060dee89eb8abafc06fd4562a36cf3297d87a..a636445e131fbb2a8ce3641a8d6af3b83eb08960 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json @@ -1,180 +1,180 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "ا : February 2012", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", - "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", - "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", - "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" - ], - "n_oov_chars": 13, - "oov_ratio": 0.41935483870967744, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "ا ", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", - "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", - "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", - "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" - ], - "n_oov_chars": 13, - "oov_ratio": 0.8125, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": " :2 ا ا ", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> ''", - "replace text[6:10] --> decoded_text[6:11] 'پودر' --> ''", - "replace text[13:14] --> decoded_text[14:19] 'ق' --> ''", - "replace text[15:17] --> decoded_text[20:25] 'شق' --> ''", - "replace text[18:19] --> decoded_text[26:31] 'چ' --> ''", - "replace text[20:21] --> decoded_text[32:37] 'ی' --> ''", - "replace text[22:26] --> decoded_text[38:43] 'خوری' --> ''" - ], - "n_oov_chars": 18, - "oov_ratio": 0.6923076923076923, - "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": " :2 ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'تخم' --> ''", - "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> ''", - "replace text[10:13] --> decoded_text[14:19] 'عدد' --> ''", - "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> ''" - ], - "n_oov_chars": 13, - "oov_ratio": 0.7222222222222222, - "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": ":225 ا اا ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", - "replace text[8:11] --> decoded_text[10:15] 'گرم' --> ''", - "replace text[12:14] --> decoded_text[16:21] 'به' --> ''", - "replace text[15:17] --> decoded_text[22:27] 'دم' --> ''", - "replace text[18:19] --> decoded_text[28:33] 'ی' --> ''", - "replace text[21:22] --> decoded_text[35:40] 'ت' --> ''", - "replace text[23:24] --> decoded_text[41:46] 'ق' --> ''", - "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> ''" - ], - "n_oov_chars": 18, - "oov_ratio": 0.6, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": ":11/2 ا+ 3 ا ا ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'شکر' --> ''", - "replace text[5:6] --> decoded_text[7:12] 'و' --> ''", - "replace text[10:13] --> decoded_text[16:21] 'پیم' --> ''", - "replace text[14:16] --> decoded_text[22:27] 'نه' --> ''", - "replace text[20:21] --> decoded_text[31:36] 'ق' --> ''", - "replace text[22:24] --> decoded_text[37:42] 'شق' --> ''", - "replace text[25:27] --> decoded_text[43:48] 'غذ' --> ''", - "replace text[29:33] --> decoded_text[50:55] 'خوری' --> ''" - ], - "n_oov_chars": 18, - "oov_ratio": 0.5454545454545454, - "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": " ا:2 1/2ا ا ", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'پودر' --> ''", - "replace text[5:6] --> decoded_text[6:11] 'د' --> ''", - "replace text[7:11] --> decoded_text[12:17] 'رچین' --> ''", - "replace text[14:15] --> decoded_text[20:25] 'و' --> ''", - "replace text[18:19] --> decoded_text[28:33] 'ق' --> ''", - "replace text[20:22] --> decoded_text[34:39] 'شق' --> ''", - "replace text[23:24] --> decoded_text[40:45] 'چ' --> ''", - "replace text[25:26] --> decoded_text[46:51] 'ی' --> ''", - "replace text[27:31] --> decoded_text[52:57] 'خوری' --> ''" - ], - "n_oov_chars": 19, - "oov_ratio": 0.6129032258064516, - "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" - }, - { - "text": "فر رو روی 350 درجه فارنهایت روشن کنید", - "decoded_text": " 350 اا ", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'فر' --> ''", - "replace text[3:5] --> decoded_text[6:11] 'رو' --> ''", - "replace text[6:9] --> decoded_text[12:17] 'روی' --> ''", - "replace text[14:18] --> decoded_text[22:27] 'درجه' --> ''", - "replace text[19:20] --> decoded_text[28:33] 'ف' --> ''", - "replace text[21:24] --> decoded_text[34:39] 'رنه' --> ''", - "replace text[25:27] --> decoded_text[40:45] 'یت' --> ''", - "replace text[28:32] --> decoded_text[46:51] 'روشن' --> ''", - "replace text[33:37] --> decoded_text[52:57] 'کنید' --> ''" - ], - "n_oov_chars": 25, - "oov_ratio": 0.6756756756756757, - "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]" - }, - { - "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", - "decoded_text": " ا ا ا اا ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", - "replace text[4:6] --> decoded_text[6:11] 'رو' --> ''", - "replace text[7:8] --> decoded_text[12:17] 'ب' --> ''", - "replace text[10:13] --> decoded_text[19:24] 'شکر' --> ''", - "replace text[14:16] --> decoded_text[25:30] 'هم' --> ''", - "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> ''", - "replace text[23:24] --> decoded_text[37:42] 'ت' --> ''", - "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> ''", - "replace text[32:33] --> decoded_text[50:55] 'و' --> ''", - "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> ''", - "replace text[39:42] --> decoded_text[62:67] 'بشه' --> ''", - "replace text[43:46] --> decoded_text[68:73] 'تخم' --> ''", - "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> ''", - "replace text[53:55] --> decoded_text[81:86] 'رو' --> ''", - "replace text[56:60] --> decoded_text[87:92] 'دونه' --> ''", - "replace text[61:65] --> decoded_text[93:98] 'دونه' --> ''", - "replace text[67:68] --> decoded_text[100:105] 'ض' --> ''", - "replace text[69:71] --> decoded_text[106:111] 'فه' --> ''", - "replace text[72:76] --> decoded_text[112:117] 'کنید' --> ''", - "replace text[77:78] --> decoded_text[118:123] 'و' --> ''", - "replace text[79:81] --> decoded_text[124:129] 'هم' --> ''", - "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> ''" - ], - "n_oov_chars": 62, - "oov_ratio": 0.7126436781609196, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" - }, - { - "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", - "decoded_text": "ا ال اا ", - "diff": [ - "replace text[1:3] --> decoded_text[1:6] 'رد' --> ''", - "replace text[4:5] --> decoded_text[7:12] 'و' --> ''", - "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> ''", - "replace text[12:16] --> decoded_text[19:24] 'پودر' --> ''", - "replace text[17:18] --> decoded_text[25:30] 'و' --> ''", - "replace text[19:22] --> decoded_text[31:36] 'نمک' --> ''", - "replace text[23:25] --> decoded_text[37:42] 'رو' --> ''", - "replace text[28:29] --> decoded_text[45:50] 'ک' --> ''", - "replace text[30:34] --> decoded_text[51:56] 'کنید' --> ''", - "replace text[35:36] --> decoded_text[57:62] 'و' --> ''", - "replace text[38:39] --> decoded_text[64:69] 'ض' --> ''", - "replace text[40:42] --> decoded_text[70:75] 'فه' --> ''", - "replace text[43:47] --> decoded_text[76:81] 'کنید' --> ''" - ], - "n_oov_chars": 31, - "oov_ratio": 0.6595744680851063, - "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "ا : February 2012", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.41935483870967744, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.8125, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": " :2 ا ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> ''", + "replace text[6:10] --> decoded_text[6:11] 'پودر' --> ''", + "replace text[13:14] --> decoded_text[14:19] 'ق' --> ''", + "replace text[15:17] --> decoded_text[20:25] 'شق' --> ''", + "replace text[18:19] --> decoded_text[26:31] 'چ' --> ''", + "replace text[20:21] --> decoded_text[32:37] 'ی' --> ''", + "replace text[22:26] --> decoded_text[38:43] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6923076923076923, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": " :2 ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> ''", + "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> ''", + "replace text[10:13] --> decoded_text[14:19] 'عدد' --> ''", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": ":225 ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[8:11] --> decoded_text[10:15] 'گرم' --> ''", + "replace text[12:14] --> decoded_text[16:21] 'به' --> ''", + "replace text[15:17] --> decoded_text[22:27] 'دم' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ی' --> ''", + "replace text[21:22] --> decoded_text[35:40] 'ت' --> ''", + "replace text[23:24] --> decoded_text[41:46] 'ق' --> ''", + "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": ":11/2 ا+ 3 ا ا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'شکر' --> ''", + "replace text[5:6] --> decoded_text[7:12] 'و' --> ''", + "replace text[10:13] --> decoded_text[16:21] 'پیم' --> ''", + "replace text[14:16] --> decoded_text[22:27] 'نه' --> ''", + "replace text[20:21] --> decoded_text[31:36] 'ق' --> ''", + "replace text[22:24] --> decoded_text[37:42] 'شق' --> ''", + "replace text[25:27] --> decoded_text[43:48] 'غذ' --> ''", + "replace text[29:33] --> decoded_text[50:55] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.5454545454545454, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": " ا:2 1/2ا ا ", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> ''", + "replace text[5:6] --> decoded_text[6:11] 'د' --> ''", + "replace text[7:11] --> decoded_text[12:17] 'رچین' --> ''", + "replace text[14:15] --> decoded_text[20:25] 'و' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ق' --> ''", + "replace text[20:22] --> decoded_text[34:39] 'شق' --> ''", + "replace text[23:24] --> decoded_text[40:45] 'چ' --> ''", + "replace text[25:26] --> decoded_text[46:51] 'ی' --> ''", + "replace text[27:31] --> decoded_text[52:57] 'خوری' --> ''" + ], + "n_oov_chars": 19, + "oov_ratio": 0.6129032258064516, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": " 350 اا ", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> ''", + "replace text[3:5] --> decoded_text[6:11] 'رو' --> ''", + "replace text[6:9] --> decoded_text[12:17] 'روی' --> ''", + "replace text[14:18] --> decoded_text[22:27] 'درجه' --> ''", + "replace text[19:20] --> decoded_text[28:33] 'ف' --> ''", + "replace text[21:24] --> decoded_text[34:39] 'رنه' --> ''", + "replace text[25:27] --> decoded_text[40:45] 'یت' --> ''", + "replace text[28:32] --> decoded_text[46:51] 'روشن' --> ''", + "replace text[33:37] --> decoded_text[52:57] 'کنید' --> ''" + ], + "n_oov_chars": 25, + "oov_ratio": 0.6756756756756757, + "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": " ا ا ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[4:6] --> decoded_text[6:11] 'رو' --> ''", + "replace text[7:8] --> decoded_text[12:17] 'ب' --> ''", + "replace text[10:13] --> decoded_text[19:24] 'شکر' --> ''", + "replace text[14:16] --> decoded_text[25:30] 'هم' --> ''", + "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> ''", + "replace text[23:24] --> decoded_text[37:42] 'ت' --> ''", + "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> ''", + "replace text[32:33] --> decoded_text[50:55] 'و' --> ''", + "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> ''", + "replace text[39:42] --> decoded_text[62:67] 'بشه' --> ''", + "replace text[43:46] --> decoded_text[68:73] 'تخم' --> ''", + "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> ''", + "replace text[53:55] --> decoded_text[81:86] 'رو' --> ''", + "replace text[56:60] --> decoded_text[87:92] 'دونه' --> ''", + "replace text[61:65] --> decoded_text[93:98] 'دونه' --> ''", + "replace text[67:68] --> decoded_text[100:105] 'ض' --> ''", + "replace text[69:71] --> decoded_text[106:111] 'فه' --> ''", + "replace text[72:76] --> decoded_text[112:117] 'کنید' --> ''", + "replace text[77:78] --> decoded_text[118:123] 'و' --> ''", + "replace text[79:81] --> decoded_text[124:129] 'هم' --> ''", + "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7126436781609196, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ا ال اا ", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] 'رد' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'و' --> ''", + "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> ''", + "replace text[12:16] --> decoded_text[19:24] 'پودر' --> ''", + "replace text[17:18] --> decoded_text[25:30] 'و' --> ''", + "replace text[19:22] --> decoded_text[31:36] 'نمک' --> ''", + "replace text[23:25] --> decoded_text[37:42] 'رو' --> ''", + "replace text[28:29] --> decoded_text[45:50] 'ک' --> ''", + "replace text[30:34] --> decoded_text[51:56] 'کنید' --> ''", + "replace text[35:36] --> decoded_text[57:62] 'و' --> ''", + "replace text[38:39] --> decoded_text[64:69] 'ض' --> ''", + "replace text[40:42] --> decoded_text[70:75] 'فه' --> ''", + "replace text[43:47] --> decoded_text[76:81] 'کنید' --> ''" + ], + "n_oov_chars": 31, + "oov_ratio": 0.6595744680851063, + "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json index 7131da7057911ab1a20bb6a75ebebb47fb66160b..672766159eff774c4e95628dccdb42dc89bed975 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut tre temps de le commencer.", - "diff": [ - "replace text[102:103] --> decoded_text[102:107] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007751937984496124, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- Je dois tre mentalement instable, par moments", - "diff": [ - "replace text[10:11] --> decoded_text[10:15] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", - "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en mme temps très étourdie", - "diff": [ - "replace text[164:165] --> decoded_text[164:169] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0053475935828877, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", - "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d me garder une heure en plus pour m'expliquer des démonstrations)", - "diff": [ - "replace text[164:165] --> decoded_text[164:169] 'û' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004347826086956522, - "oov_charset": "[\"û\"]" - }, - { - "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", - "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand mme)", - "diff": [ - "replace text[163:164] --> decoded_text[163:168] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005988023952095809, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", - "decoded_text": "- je préfère largement passer du temps avec les gens de mon ge ou plus ou moins (généralement pas mon ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", - "diff": [ - "replace text[60:61] --> decoded_text[60:65] 'â' --> ''", - "replace text[103:104] --> decoded_text[107:112] 'â' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"â\"]" - }, - { - "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens", - "decoded_text": "- j'aime chanter, faire du thétre et provoquer des émotions chez les gens", - "diff": [ - "replace text[30:31] --> decoded_text[30:35] 'â' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"â\"]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnatre quand j'ai tort", - "diff": [ - "replace text[49:50] --> decoded_text[49:54] 'ê' --> ''", - "delete text[150:151] --> decoded_text[154:154] ' ' --> ''", - "replace text[170:171] --> decoded_text[173:178] 'î' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"ê\", \"î\"]" - }, - { - "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", - "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-tre trop bien que tout le monde est différent", - "diff": [ - "replace text[90:91] --> decoded_text[90:95] 'ê' --> ''", - "replace text[187:188] --> decoded_text[191:196] 'ê' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008583690987124463, - "oov_charset": "[\"ê\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut tre temps de le commencer.", + "diff": [ + "replace text[102:103] --> decoded_text[102:107] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois tre mentalement instable, par moments", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", + "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en mme temps très étourdie", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0053475935828877, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'û' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004347826086956522, + "oov_charset": "[\"û\"]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand mme)", + "diff": [ + "replace text[163:164] --> decoded_text[163:168] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005988023952095809, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon ge ou plus ou moins (généralement pas mon ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "diff": [ + "replace text[60:61] --> decoded_text[60:65] 'â' --> ''", + "replace text[103:104] --> decoded_text[107:112] 'â' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens", + "decoded_text": "- j'aime chanter, faire du thétre et provoquer des émotions chez les gens", + "diff": [ + "replace text[30:31] --> decoded_text[30:35] 'â' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnatre quand j'ai tort", + "diff": [ + "replace text[49:50] --> decoded_text[49:54] 'ê' --> ''", + "delete text[150:151] --> decoded_text[154:154] ' ' --> ''", + "replace text[170:171] --> decoded_text[173:178] 'î' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"ê\", \"î\"]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-tre trop bien que tout le monde est différent", + "diff": [ + "replace text[90:91] --> decoded_text[90:95] 'ê' --> ''", + "replace text[187:188] --> decoded_text[191:196] 'ê' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008583690987124463, + "oov_charset": "[\"ê\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json index d729eddac37003accee685c0de0293dddc73df58..a3ced192f52737d318e07e08fe7f6862b490a356 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", - "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整されてる央道を越えるとお世話になってるボウリング場が見えて来ました。", - "diff": [ - "replace text[31:32] --> decoded_text[31:36] '備' --> ''", - "replace text[36:37] --> decoded_text[40:45] '圏' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029850746268656716, - "oov_charset": "[\"備\", \"圏\"]" - }, - { - "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "decoded_text": "う〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "diff": [ - "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.021739130434782608, - "oov_charset": "[\"ぅ\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", - "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの断をもらっていました。", - "diff": [ - "replace text[31:32] --> decoded_text[31:36] '診' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"診\"]" - }, - { - "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "decoded_text": "ただ、これまでお散仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "diff": [ - "replace text[9:10] --> decoded_text[9:14] '歩' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"歩\"]" - }, - { - "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", - "decoded_text": "昔はヒアルロン酸の目なども方されてたようですが、これがく事はないそうです。", - "diff": [ - "replace text[10:11] --> decoded_text[10:15] '薬' --> ''", - "replace text[14:15] --> decoded_text[18:23] '処' --> ''", - "replace text[29:30] --> decoded_text[37:42] '効' --> ''" - ], - "n_oov_chars": 3, - "oov_ratio": 0.075, - "oov_charset": "[\"薬\", \"処\", \"効\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散でもれたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[12:13] --> decoded_text[12:17] '歩' --> ''", - "replace text[15:16] --> decoded_text[19:24] '訪' --> ''", - "replace text[35:36] --> decoded_text[43:44] '5' --> '5'", - "replace text[51:52] --> decoded_text[59:60] '1' --> '1'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.0625, - "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]" - }, - { - "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", - "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードでけていくのを目の当たりにしてちょっとビビっておりました", - "diff": [ - "replace text[41:42] --> decoded_text[41:46] '駆' --> ''", - "replace text[43:44] --> decoded_text[47:52] '抜' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.028169014084507043, - "oov_charset": "[\"駆\", \"抜\"]" - }, - { - "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", - "decoded_text": "彼らには対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", - "diff": [ - "replace text[4:5] --> decoded_text[4:9] '絶' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.025, - "oov_charset": "[\"絶\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整されてる央道を越えるとお世話になってるボウリング場が見えて来ました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '備' --> ''", + "replace text[36:37] --> decoded_text[40:45] '圏' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029850746268656716, + "oov_charset": "[\"備\", \"圏\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "う〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"ぅ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの断をもらっていました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '診' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"診\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "ただ、これまでお散仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '歩' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"歩\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔はヒアルロン酸の目なども方されてたようですが、これがく事はないそうです。", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] '薬' --> ''", + "replace text[14:15] --> decoded_text[18:23] '処' --> ''", + "replace text[29:30] --> decoded_text[37:42] '効' --> ''" + ], + "n_oov_chars": 3, + "oov_ratio": 0.075, + "oov_charset": "[\"薬\", \"処\", \"効\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散でもれたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[12:13] --> decoded_text[12:17] '歩' --> ''", + "replace text[15:16] --> decoded_text[19:24] '訪' --> ''", + "replace text[35:36] --> decoded_text[43:44] '5' --> '5'", + "replace text[51:52] --> decoded_text[59:60] '1' --> '1'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.0625, + "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードでけていくのを目の当たりにしてちょっとビビっておりました", + "diff": [ + "replace text[41:42] --> decoded_text[41:46] '駆' --> ''", + "replace text[43:44] --> decoded_text[47:52] '抜' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.028169014084507043, + "oov_charset": "[\"駆\", \"抜\"]" + }, + { + "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "decoded_text": "彼らには対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] '絶' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"絶\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json index 8f7f74b82862bc469d4dfd2df19495f4ddde1432..295482299df989b8966c42e3931502bcf881c99e 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json @@ -1,255 +1,255 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ HOME > ", - "diff": [ - "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> ''" - ], - "n_oov_chars": 6, - "oov_ratio": 0.4, - "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": " 15~17 3 .", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] '특히' --> ''", - "replace text[3:5] --> decoded_text[6:11] '주소' --> ''", - "replace text[11:12] --> decoded_text[17:22] '번' --> ''", - "replace text[13:16] --> decoded_text[23:28] '홀에선' --> ''", - "replace text[18:20] --> decoded_text[30:35] '연속' --> ''", - "replace text[21:24] --> decoded_text[36:41] '보기로' --> ''", - "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> ''", - "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> ''" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "1'- ' 2 .", - "diff": [ - "replace text[1:3] --> decoded_text[1:6] '편인' --> ''", - "replace text[4:8] --> decoded_text[7:12] '신과함께' --> ''", - "replace text[9:11] --> decoded_text[13:18] '죄와' --> ''", - "replace text[12:13] --> decoded_text[19:24] '벌' --> ''", - "replace text[14:15] --> decoded_text[25:30] '이' --> ''", - "replace text[16:19] --> decoded_text[31:36] '천만을' --> ''", - "replace text[20:22] --> decoded_text[37:42] '넘은' --> ''", - "replace text[23:25] --> decoded_text[43:48] '만큼' --> ''", - "replace text[27:29] --> decoded_text[50:55] '편을' --> ''", - "replace text[30:33] --> decoded_text[56:61] '기다린' --> ''", - "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> ''", - "replace text[43:47] --> decoded_text[68:73] '관객들의' --> ''", - "replace text[48:51] --> decoded_text[74:79] '기대와' --> ''", - "replace text[52:54] --> decoded_text[80:85] '주소' --> ''", - "replace text[55:58] --> decoded_text[86:91] '관심은' --> ''", - "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> ''" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": " ' ' . .", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '고려해서' --> ''", - "replace text[5:7] --> decoded_text[6:11] '주소' --> ''", - "replace text[9:12] --> decoded_text[13:18] '대체재' --> ''", - "replace text[13:15] --> decoded_text[19:24] '일색' --> ''", - "replace text[16:17] --> decoded_text[25:30] '의' --> ''", - "replace text[18:21] --> decoded_text[31:36] '분재를' --> ''", - "replace text[22:25] --> decoded_text[37:42] '내놓을' --> ''", - "replace text[26:29] --> decoded_text[43:48] '위험이' --> ''", - "replace text[30:32] --> decoded_text[49:54] '있다' --> ''", - "replace text[34:37] --> decoded_text[56:61] '문학의' --> ''", - "replace text[38:41] --> decoded_text[62:67] '자유를' --> ''", - "replace text[42:46] --> decoded_text[68:73] '소설가가' --> ''", - "replace text[47:50] --> decoded_text[74:79] '스스로' --> ''", - "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> ''", - "replace text[60:64] --> decoded_text[86:91] '출판사에' --> ''", - "replace text[65:69] --> decoded_text[92:97] '상납하는' --> ''", - "replace text[70:73] --> decoded_text[98:103] '것이다' --> ''" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": " (22) 43(2 ) 3(.246.270.508). .", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> ''", - "replace text[7:9] --> decoded_text[6:11] '유산' --> ''", - "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> ''", - "replace text[15:17] --> decoded_text[18:23] '주소' --> ''", - "replace text[18:21] --> decoded_text[24:29] '바레토' --> ''", - "replace text[25:26] --> decoded_text[33:38] '는' --> ''", - "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> ''", - "replace text[37:39] --> decoded_text[46:51] '타수' --> ''", - "replace text[40:42] --> decoded_text[52:57] '안타' --> ''", - "replace text[44:46] --> decoded_text[59:64] '루타' --> ''", - "replace text[47:49] --> decoded_text[65:70] '홈런' --> ''", - "replace text[52:54] --> decoded_text[73:78] '타점' --> ''", - "delete text[59:60] --> decoded_text[83:83] ' ' --> ''", - "delete text[64:65] --> decoded_text[87:87] ' ' --> ''", - "replace text[72:75] --> decoded_text[94:99] '하지만' --> ''", - "replace text[76:79] --> decoded_text[100:105] '아직은' --> ''", - "replace text[80:84] --> decoded_text[106:111] '트레이드' --> ''", - "replace text[85:88] --> decoded_text[112:117] '당시의' --> ''", - "replace text[89:93] --> decoded_text[118:123] '기대치를' --> ''", - "replace text[94:98] --> decoded_text[124:129] '보여주지' --> ''", - "replace text[99:102] --> decoded_text[130:135] '못하고' --> ''", - "replace text[103:105] --> decoded_text[136:141] '있다' --> ''" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": " 2 . A, B 1 12-4- 3 , C, D, E, F 1 12-6-4- 4 .", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> ''", - "replace text[8:10] --> decoded_text[7:12] '팀이' --> ''", - "replace text[11:15] --> decoded_text[13:18] '준결승에' --> ''", - "replace text[16:19] --> decoded_text[19:24] '오른다' --> ''", - "replace text[21:23] --> decoded_text[26:31] '결국' --> ''", - "replace text[28:29] --> decoded_text[36:41] '조' --> ''", - "replace text[31:33] --> decoded_text[43:48] '위는' --> ''", - "replace text[36:37] --> decoded_text[51:56] '강' --> ''", - "replace text[39:40] --> decoded_text[58:63] '강' --> ''", - "replace text[41:45] --> decoded_text[64:69] '결승으로' --> ''", - "replace text[47:50] --> decoded_text[71:76] '경기를' --> ''", - "replace text[51:55] --> decoded_text[77:82] '치르지만' --> ''", - "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> ''", - "replace text[76:77] --> decoded_text[100:105] '조' --> ''", - "replace text[79:81] --> decoded_text[107:112] '위는' --> ''", - "replace text[82:84] --> decoded_text[113:118] '주소' --> ''", - "replace text[87:88] --> decoded_text[121:126] '강' --> ''", - "replace text[90:91] --> decoded_text[128:133] '강' --> ''", - "replace text[93:94] --> decoded_text[135:140] '강' --> ''", - "replace text[95:99] --> decoded_text[141:146] '결승으로' --> ''", - "replace text[101:104] --> decoded_text[148:153] '경기를' --> ''", - "replace text[105:107] --> decoded_text[154:159] '해야' --> ''", - "replace text[108:110] --> decoded_text[160:165] '한다' --> ''" - ], - "n_oov_chars": 60, - "oov_ratio": 0.5405405405405406, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": " . ' 1' , .", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '또한이날' --> ''", - "replace text[5:8] --> decoded_text[6:11] '눈길을' --> ''", - "replace text[9:11] --> decoded_text[12:17] '주소' --> ''", - "replace text[12:13] --> decoded_text[18:23] '끈' --> ''", - "replace text[14:16] --> decoded_text[24:29] '것은' --> ''", - "replace text[17:18] --> decoded_text[30:35] '한' --> ''", - "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> ''", - "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> ''", - "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> ''", - "replace text[41:44] --> decoded_text[55:60] '배우의' --> ''", - "replace text[45:48] --> decoded_text[61:66] '매니저' --> ''", - "replace text[49:51] --> decoded_text[67:72] '일을' --> ''", - "replace text[52:54] --> decoded_text[73:78] '하고' --> ''", - "replace text[55:58] --> decoded_text[79:84] '있다는' --> ''", - "replace text[59:60] --> decoded_text[85:90] '한' --> ''", - "replace text[61:65] --> decoded_text[91:96] '청취자의' --> ''", - "replace text[66:69] --> decoded_text[97:102] '사연에' --> ''", - "replace text[70:74] --> decoded_text[103:108] '박명수는' --> ''", - "replace text[76:79] --> decoded_text[110:115] '실시간' --> ''", - "replace text[80:83] --> decoded_text[116:121] '검색어' --> ''", - "replace text[85:86] --> decoded_text[123:128] '위' --> ''", - "replace text[87:88] --> decoded_text[129:134] '를' --> ''", - "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> ''", - "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> ''", - "replace text[104:106] --> decoded_text[148:153] '했다' --> ''" - ], - "n_oov_chars": 78, - "oov_ratio": 0.7289719626168224, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": " , . .", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> ''", - "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> ''", - "replace text[15:17] --> decoded_text[12:17] '시즌' --> ''", - "replace text[19:23] --> decoded_text[19:24] '호날두와' --> ''", - "replace text[24:28] --> decoded_text[25:30] '이과인이' --> ''", - "replace text[29:31] --> decoded_text[31:36] '다시' --> ''", - "replace text[32:34] --> decoded_text[37:42] '주소' --> ''", - "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> ''", - "replace text[40:42] --> decoded_text[49:54] '먹는' --> ''", - "replace text[43:45] --> decoded_text[55:60] '일이' --> ''", - "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> ''", - "replace text[52:56] --> decoded_text[68:73] '호날두가' --> ''", - "replace text[58:59] --> decoded_text[75:80] '빅' --> ''", - "replace text[60:63] --> decoded_text[81:86] '사이닝' --> ''", - "replace text[64:65] --> decoded_text[87:92] '을' --> ''", - "replace text[66:68] --> decoded_text[93:98] '통해' --> ''", - "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> ''", - "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> ''", - "replace text[79:83] --> decoded_text[111:116] '때문이다' --> ''" - ], - "n_oov_chars": 62, - "oov_ratio": 0.7380952380952381, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": " .", - "diff": [ - "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> ''", - "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> ''", - "replace text[18:20] --> decoded_text[12:17] '위해' --> ''", - "replace text[21:24] --> decoded_text[18:23] '홍천에' --> ''", - "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> ''", - "replace text[34:36] --> decoded_text[30:35] '주소' --> ''", - "replace text[37:39] --> decoded_text[36:41] '왔다' --> ''" - ], - "n_oov_chars": 33, - "oov_ratio": 0.825, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": " , . .", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> ''", - "replace text[6:9] --> decoded_text[6:11] '나란히' --> ''", - "replace text[10:12] --> decoded_text[12:17] '앉아' --> ''", - "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> ''", - "replace text[18:21] --> decoded_text[24:29] '한다는' --> ''", - "replace text[22:23] --> decoded_text[30:35] '게' --> ''", - "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> ''", - "replace text[29:31] --> decoded_text[42:47] '법도' --> ''", - "replace text[32:34] --> decoded_text[48:53] '한데' --> ''", - "replace text[36:38] --> decoded_text[55:60] '주소' --> ''", - "replace text[39:40] --> decoded_text[61:66] '둘' --> ''", - "replace text[41:45] --> decoded_text[67:72] '사이에는' --> ''", - "replace text[46:48] --> decoded_text[73:78] '어떤' --> ''", - "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> ''", - "replace text[54:57] --> decoded_text[85:90] '없었다' --> ''", - "replace text[59:61] --> decoded_text[92:97] '마치' --> ''", - "replace text[62:65] --> decoded_text[98:103] '하루에' --> ''", - "replace text[66:67] --> decoded_text[104:109] '한' --> ''", - "replace text[68:70] --> decoded_text[110:115] '번씩' --> ''", - "replace text[71:74] --> decoded_text[116:121] '만나는' --> ''", - "replace text[75:77] --> decoded_text[122:127] '친구' --> ''", - "replace text[78:80] --> decoded_text[128:133] '같은' --> ''", - "replace text[81:84] --> decoded_text[134:139] '느낌이' --> ''", - "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> ''", - "replace text[94:97] --> decoded_text[146:151] '강했다' --> ''" - ], - "n_oov_chars": 71, - "oov_ratio": 0.7244897959183674, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ HOME > ", + "diff": [ + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> ''" + ], + "n_oov_chars": 6, + "oov_ratio": 0.4, + "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": " 15~17 3 .", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> ''", + "replace text[3:5] --> decoded_text[6:11] '주소' --> ''", + "replace text[11:12] --> decoded_text[17:22] '번' --> ''", + "replace text[13:16] --> decoded_text[23:28] '홀에선' --> ''", + "replace text[18:20] --> decoded_text[30:35] '연속' --> ''", + "replace text[21:24] --> decoded_text[36:41] '보기로' --> ''", + "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> ''", + "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> ''" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1'- ' 2 .", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] '편인' --> ''", + "replace text[4:8] --> decoded_text[7:12] '신과함께' --> ''", + "replace text[9:11] --> decoded_text[13:18] '죄와' --> ''", + "replace text[12:13] --> decoded_text[19:24] '벌' --> ''", + "replace text[14:15] --> decoded_text[25:30] '이' --> ''", + "replace text[16:19] --> decoded_text[31:36] '천만을' --> ''", + "replace text[20:22] --> decoded_text[37:42] '넘은' --> ''", + "replace text[23:25] --> decoded_text[43:48] '만큼' --> ''", + "replace text[27:29] --> decoded_text[50:55] '편을' --> ''", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> ''", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> ''", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> ''", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> ''", + "replace text[52:54] --> decoded_text[80:85] '주소' --> ''", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> ''", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": " ' ' . .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> ''", + "replace text[5:7] --> decoded_text[6:11] '주소' --> ''", + "replace text[9:12] --> decoded_text[13:18] '대체재' --> ''", + "replace text[13:15] --> decoded_text[19:24] '일색' --> ''", + "replace text[16:17] --> decoded_text[25:30] '의' --> ''", + "replace text[18:21] --> decoded_text[31:36] '분재를' --> ''", + "replace text[22:25] --> decoded_text[37:42] '내놓을' --> ''", + "replace text[26:29] --> decoded_text[43:48] '위험이' --> ''", + "replace text[30:32] --> decoded_text[49:54] '있다' --> ''", + "replace text[34:37] --> decoded_text[56:61] '문학의' --> ''", + "replace text[38:41] --> decoded_text[62:67] '자유를' --> ''", + "replace text[42:46] --> decoded_text[68:73] '소설가가' --> ''", + "replace text[47:50] --> decoded_text[74:79] '스스로' --> ''", + "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> ''", + "replace text[60:64] --> decoded_text[86:91] '출판사에' --> ''", + "replace text[65:69] --> decoded_text[92:97] '상납하는' --> ''", + "replace text[70:73] --> decoded_text[98:103] '것이다' --> ''" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": " (22) 43(2 ) 3(.246.270.508). .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> ''", + "replace text[7:9] --> decoded_text[6:11] '유산' --> ''", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> ''", + "replace text[15:17] --> decoded_text[18:23] '주소' --> ''", + "replace text[18:21] --> decoded_text[24:29] '바레토' --> ''", + "replace text[25:26] --> decoded_text[33:38] '는' --> ''", + "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> ''", + "replace text[37:39] --> decoded_text[46:51] '타수' --> ''", + "replace text[40:42] --> decoded_text[52:57] '안타' --> ''", + "replace text[44:46] --> decoded_text[59:64] '루타' --> ''", + "replace text[47:49] --> decoded_text[65:70] '홈런' --> ''", + "replace text[52:54] --> decoded_text[73:78] '타점' --> ''", + "delete text[59:60] --> decoded_text[83:83] ' ' --> ''", + "delete text[64:65] --> decoded_text[87:87] ' ' --> ''", + "replace text[72:75] --> decoded_text[94:99] '하지만' --> ''", + "replace text[76:79] --> decoded_text[100:105] '아직은' --> ''", + "replace text[80:84] --> decoded_text[106:111] '트레이드' --> ''", + "replace text[85:88] --> decoded_text[112:117] '당시의' --> ''", + "replace text[89:93] --> decoded_text[118:123] '기대치를' --> ''", + "replace text[94:98] --> decoded_text[124:129] '보여주지' --> ''", + "replace text[99:102] --> decoded_text[130:135] '못하고' --> ''", + "replace text[103:105] --> decoded_text[136:141] '있다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": " 2 . A, B 1 12-4- 3 , C, D, E, F 1 12-6-4- 4 .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> ''", + "replace text[8:10] --> decoded_text[7:12] '팀이' --> ''", + "replace text[11:15] --> decoded_text[13:18] '준결승에' --> ''", + "replace text[16:19] --> decoded_text[19:24] '오른다' --> ''", + "replace text[21:23] --> decoded_text[26:31] '결국' --> ''", + "replace text[28:29] --> decoded_text[36:41] '조' --> ''", + "replace text[31:33] --> decoded_text[43:48] '위는' --> ''", + "replace text[36:37] --> decoded_text[51:56] '강' --> ''", + "replace text[39:40] --> decoded_text[58:63] '강' --> ''", + "replace text[41:45] --> decoded_text[64:69] '결승으로' --> ''", + "replace text[47:50] --> decoded_text[71:76] '경기를' --> ''", + "replace text[51:55] --> decoded_text[77:82] '치르지만' --> ''", + "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> ''", + "replace text[76:77] --> decoded_text[100:105] '조' --> ''", + "replace text[79:81] --> decoded_text[107:112] '위는' --> ''", + "replace text[82:84] --> decoded_text[113:118] '주소' --> ''", + "replace text[87:88] --> decoded_text[121:126] '강' --> ''", + "replace text[90:91] --> decoded_text[128:133] '강' --> ''", + "replace text[93:94] --> decoded_text[135:140] '강' --> ''", + "replace text[95:99] --> decoded_text[141:146] '결승으로' --> ''", + "replace text[101:104] --> decoded_text[148:153] '경기를' --> ''", + "replace text[105:107] --> decoded_text[154:159] '해야' --> ''", + "replace text[108:110] --> decoded_text[160:165] '한다' --> ''" + ], + "n_oov_chars": 60, + "oov_ratio": 0.5405405405405406, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": " . ' 1' , .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> ''", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> ''", + "replace text[9:11] --> decoded_text[12:17] '주소' --> ''", + "replace text[12:13] --> decoded_text[18:23] '끈' --> ''", + "replace text[14:16] --> decoded_text[24:29] '것은' --> ''", + "replace text[17:18] --> decoded_text[30:35] '한' --> ''", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> ''", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> ''", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> ''", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> ''", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> ''", + "replace text[49:51] --> decoded_text[67:72] '일을' --> ''", + "replace text[52:54] --> decoded_text[73:78] '하고' --> ''", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> ''", + "replace text[59:60] --> decoded_text[85:90] '한' --> ''", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> ''", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> ''", + "replace text[70:74] --> decoded_text[103:108] '박명수는' --> ''", + "replace text[76:79] --> decoded_text[110:115] '실시간' --> ''", + "replace text[80:83] --> decoded_text[116:121] '검색어' --> ''", + "replace text[85:86] --> decoded_text[123:128] '위' --> ''", + "replace text[87:88] --> decoded_text[129:134] '를' --> ''", + "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> ''", + "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> ''", + "replace text[104:106] --> decoded_text[148:153] '했다' --> ''" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> ''", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> ''", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> ''", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> ''", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> ''", + "replace text[29:31] --> decoded_text[31:36] '다시' --> ''", + "replace text[32:34] --> decoded_text[37:42] '주소' --> ''", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> ''", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> ''", + "replace text[43:45] --> decoded_text[55:60] '일이' --> ''", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> ''", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> ''", + "replace text[58:59] --> decoded_text[75:80] '빅' --> ''", + "replace text[60:63] --> decoded_text[81:86] '사이닝' --> ''", + "replace text[64:65] --> decoded_text[87:92] '을' --> ''", + "replace text[66:68] --> decoded_text[93:98] '통해' --> ''", + "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> ''", + "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> ''", + "replace text[79:83] --> decoded_text[111:116] '때문이다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": " .", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> ''", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> ''", + "replace text[18:20] --> decoded_text[12:17] '위해' --> ''", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> ''", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> ''", + "replace text[34:36] --> decoded_text[30:35] '주소' --> ''", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> ''" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> ''", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> ''", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> ''", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> ''", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> ''", + "replace text[22:23] --> decoded_text[30:35] '게' --> ''", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> ''", + "replace text[29:31] --> decoded_text[42:47] '법도' --> ''", + "replace text[32:34] --> decoded_text[48:53] '한데' --> ''", + "replace text[36:38] --> decoded_text[55:60] '주소' --> ''", + "replace text[39:40] --> decoded_text[61:66] '둘' --> ''", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> ''", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> ''", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> ''", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> ''", + "replace text[59:61] --> decoded_text[92:97] '마치' --> ''", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> ''", + "replace text[66:67] --> decoded_text[104:109] '한' --> ''", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> ''", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> ''", + "replace text[75:77] --> decoded_text[122:127] '친구' --> ''", + "replace text[78:80] --> decoded_text[128:133] '같은' --> ''", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> ''", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> ''", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> ''" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json index 589ad4b55758df5cda939266e967cf994576593c..9ff005a0d52762780b4efd985ffb8f20ca794e6d 100644 --- a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json @@ -1,157 +1,157 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "招财带什么佛牌(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '卍' --> ''", - "replace text[8:9] --> decoded_text[12:17] '卍' --> ''", - "replace text[57:58] --> decoded_text[65:66] ',' --> ','", - "replace text[95:96] --> decoded_text[103:104] ',' --> ','", - "replace text[113:114] --> decoded_text[121:122] ',' --> ','", - "replace text[136:137] --> decoded_text[144:145] ',' --> ','", - "replace text[148:149] --> decoded_text[156:157] ',' --> ','", - "replace text[168:169] --> decoded_text[176:177] ',' --> ','", - "replace text[183:184] --> decoded_text[191:192] ',' --> ','", - "replace text[213:214] --> decoded_text[221:222] ':' --> ':'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.04672897196261682, - "oov_charset": "[\"卍\", \",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "招财带什么佛牌(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '卍' --> ''", + "replace text[8:9] --> decoded_text[12:17] '卍' --> ''", + "replace text[57:58] --> decoded_text[65:66] ',' --> ','", + "replace text[95:96] --> decoded_text[103:104] ',' --> ','", + "replace text[113:114] --> decoded_text[121:122] ',' --> ','", + "replace text[136:137] --> decoded_text[144:145] ',' --> ','", + "replace text[148:149] --> decoded_text[156:157] ',' --> ','", + "replace text[168:169] --> decoded_text[176:177] ',' --> ','", + "replace text[183:184] --> decoded_text[191:192] ',' --> ','", + "replace text[213:214] --> decoded_text[221:222] ':' --> ':'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04672897196261682, + "oov_charset": "[\"卍\", \",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json index 19d6c53867a33cf11a112ebbbef5852943f6481f..0ebea5fffad2862b4d18b1eeb773ecd858d7dbb0 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json @@ -1,177 +1,177 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللا / ل اللا - ا.. ( 1)", - "diff": [ - "replace text[5:6] --> decoded_text[5:10] 'و' --> ''", - "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''", - "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''", - "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''", - "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''", - "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''", - "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''", - "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''", - "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''", - "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''" - ], - "n_oov_chars": 21, - "oov_ratio": 0.42, - "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" - }, - { - "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", - "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال..", - "diff": [ - "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> ' ا ال'", - "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> 'ا ا ل ا الا الا ال اا ا ال'", - "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> ' اا الاا ال '", - "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> 'ا الا'", - "replace text[150:151] --> decoded_text[231:236] 'م' --> ''", - "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> 'ل ا اا لا لا ل ل ال اا اال اا'", - "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> ' اا ا الاا'", - "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> ' اا اا للاا ال لاا'", - "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> ' الا ل ال ال اا '", - "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' اا اال ا ا ال ال ل الا الا'", - "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> ' اا الال ا الال ا الاا'", - "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> 'ا ا ال ا ال ال ل ال الاا'", - "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> 'ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال '", - "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> 'ا ل ال الا ال'", - "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> 'ل الا ل الا ال ال ال'", - "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> ''", - "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> 'ل لا ال ال ا ا ال ا ال'" - ], - "n_oov_chars": 567, - "oov_ratio": 0.5869565217391305, - "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" - }, - { - "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", - "decoded_text": "ال ا ال, ا الل ا , ال الا ل ا ال ا ا اا الا, ااا الا الل ال, ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا..", - "diff": [ - "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ال ا ال'", - "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> 'ا الل ا '", - "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> ' ال الا ل ا ال ا ا اا الا'", - "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> ' ااا الا الل ال'", - "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> ' ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا'" - ], - "n_oov_chars": 208, - "oov_ratio": 0.6135693215339233, - "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" - }, - { - "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", - "decoded_text": "لا الل ا ا لا الل.. الل ا ال الل ال ل لا ل ا..", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'وك' --> ''", - "replace text[4:5] --> decoded_text[7:12] 'م' --> ''", - "replace text[8:11] --> decoded_text[15:20] 'رسو' --> ''", - "replace text[13:16] --> decoded_text[22:27] 'وأح' --> ''", - "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> ''", - "replace text[22:23] --> decoded_text[34:39] 'م' --> ''", - "replace text[25:27] --> decoded_text[41:46] 'هي' --> ''", - "replace text[28:29] --> decoded_text[47:52] 'إ' --> ''", - "replace text[32:35] --> decoded_text[55:60] 'وحي' --> ''", - "replace text[36:38] --> decoded_text[61:66] 'من' --> ''", - "replace text[42:43] --> decoded_text[70:75] 'ه' --> ''", - "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> ''", - "replace text[52:54] --> decoded_text[84:89] 'أن' --> ''", - "replace text[57:59] --> decoded_text[92:97] 'عم' --> ''", - "replace text[61:63] --> decoded_text[99:104] 'بم' --> ''", - "replace text[65:66] --> decoded_text[106:111] 'ق' --> ''", - "replace text[68:69] --> decoded_text[113:118] 'ه' --> ''", - "replace text[72:75] --> decoded_text[121:126] 'رسو' --> ''", - "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> ''", - "replace text[84:86] --> decoded_text[136:141] 'هو' --> ''", - "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> ''", - "replace text[92:94] --> decoded_text[148:153] 'ية' --> ''", - "replace text[95:97] --> decoded_text[154:159] 'أخ' --> ''", - "replace text[99:102] --> decoded_text[161:166] 'قية' --> ''", - "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> ''", - "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> ''", - "replace text[116:118] --> decoded_text[179:184] 'ية' --> ''", - "replace text[119:121] --> decoded_text[185:190] 'سي' --> ''", - "replace text[122:125] --> decoded_text[191:196] 'سية' --> ''" - ], - "n_oov_chars": 74, - "oov_ratio": 0.5826771653543307, - "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" - }, - { - "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", - "decoded_text": "ل ا ال الا ا , ل ال ل ال ال ل الا الا ا ا ا ا الل ال..", - "diff": [ - "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> 'ل ا ال الا ا '", - "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> 'ل ال ل ال ال ل الا الا ا ا ا ا الل ال'" - ], - "n_oov_chars": 84, - "oov_ratio": 0.5874125874125874, - "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" - }, - { - "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", - "decoded_text": "ل الاا الا الاا, الاا ا ل ا ا الل ل ال ل لا الل لا ل ل..", - "diff": [ - "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> 'ل الاا الا الاا'", - "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> ' الاا ا ل ا ا الل ل ال ل لا الل لا ل ل'" - ], - "n_oov_chars": 91, - "oov_ratio": 0.5796178343949044, - "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "ا لا ا الا ا ا الل ل ا .. ل ال- ل لا ال, ل لال, ا الا ل الا ا, ل ال ا لا ل لا..", - "diff": [ - "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> 'ا لا ا الا ا ا الل ل ا '", - "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> ' ل ال'", - "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> ' ل لا ال'", - "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> 'ل '", - "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> ' ا الا ل الا '", - "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> 'ل ال ا لا ل لا'" - ], - "n_oov_chars": 132, - "oov_ratio": 0.584070796460177, - "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" - }, - { - "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", - "decoded_text": "ال الا الا ل ال الا الا للا, ل لا ل لا.. الا الا ال ال, ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا ل, ا ا ال ال الل ل ا ا ال ل ل ا الا ال, ..!", - "diff": [ - "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> ' الا الا ل ال الا الا للا'", - "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> ' لا ل ل'", - "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> 'الا الا ال ال'", - "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> ' ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا '", - "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> ' ا ا ال ال الل ل ا ا ال ل ل ا الا ال'", - "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> ' '", - "replace text[405:406] --> decoded_text[648:653] '؟' --> ''" - ], - "n_oov_chars": 243, - "oov_ratio": 0.597051597051597, - "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" - }, - { - "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", - "decoded_text": "ل ا الا ل ا ل لا ا ال ل ا ل لا.. ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل !!", - "diff": [ - "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> 'ل ا الا ل ا ل لا ا ال ل ا ل لا'", - "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> ' ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل '" - ], - "n_oov_chars": 156, - "oov_ratio": 0.631578947368421, - "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" - }, - { - "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", - "decoded_text": "ال.. الل الا.. الل ال , ا, ا لا اا.. ال اا ل الاا الاا الل اا ا , الا, ا..", - "diff": [ - "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '.. الل الا.. الل ال '", - "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> 'ا'", - "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> 'ا لا اا.. ال اا ل الاا الاا الل اا ا '", - "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> ' الا'", - "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> ' ا..'" - ], - "n_oov_chars": 111, - "oov_ratio": 0.5721649484536082, - "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللا / ل اللا - ا.. ( 1)", + "diff": [ + "replace text[5:6] --> decoded_text[5:10] 'و' --> ''", + "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''", + "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''", + "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''", + "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''", + "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''", + "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''", + "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''", + "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''", + "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''" + ], + "n_oov_chars": 21, + "oov_ratio": 0.42, + "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال..", + "diff": [ + "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> ' ا ال'", + "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> 'ا ا ل ا الا الا ال اا ا ال'", + "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> ' اا الاا ال '", + "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> 'ا الا'", + "replace text[150:151] --> decoded_text[231:236] 'م' --> ''", + "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> 'ل ا اا لا لا ل ل ال اا اال اا'", + "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> ' اا ا الاا'", + "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> ' اا اا للاا ال لاا'", + "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> ' الا ل ال ال اا '", + "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' اا اال ا ا ال ال ل الا الا'", + "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> ' اا الال ا الال ا الاا'", + "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> 'ا ا ال ا ال ال ل ال الاا'", + "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> 'ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال '", + "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> 'ا ل ال الا ال'", + "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> 'ل الا ل الا ال ال ال'", + "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> ''", + "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> 'ل لا ال ال ا ا ال ا ال'" + ], + "n_oov_chars": 567, + "oov_ratio": 0.5869565217391305, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "ال ا ال, ا الل ا , ال الا ل ا ال ا ا اا الا, ااا الا الل ال, ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا..", + "diff": [ + "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ال ا ال'", + "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> 'ا الل ا '", + "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> ' ال الا ل ا ال ا ا اا الا'", + "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> ' ااا الا الل ال'", + "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> ' ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا'" + ], + "n_oov_chars": 208, + "oov_ratio": 0.6135693215339233, + "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "لا الل ا ا لا الل.. الل ا ال الل ال ل لا ل ا..", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'وك' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'م' --> ''", + "replace text[8:11] --> decoded_text[15:20] 'رسو' --> ''", + "replace text[13:16] --> decoded_text[22:27] 'وأح' --> ''", + "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> ''", + "replace text[22:23] --> decoded_text[34:39] 'م' --> ''", + "replace text[25:27] --> decoded_text[41:46] 'هي' --> ''", + "replace text[28:29] --> decoded_text[47:52] 'إ' --> ''", + "replace text[32:35] --> decoded_text[55:60] 'وحي' --> ''", + "replace text[36:38] --> decoded_text[61:66] 'من' --> ''", + "replace text[42:43] --> decoded_text[70:75] 'ه' --> ''", + "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> ''", + "replace text[52:54] --> decoded_text[84:89] 'أن' --> ''", + "replace text[57:59] --> decoded_text[92:97] 'عم' --> ''", + "replace text[61:63] --> decoded_text[99:104] 'بم' --> ''", + "replace text[65:66] --> decoded_text[106:111] 'ق' --> ''", + "replace text[68:69] --> decoded_text[113:118] 'ه' --> ''", + "replace text[72:75] --> decoded_text[121:126] 'رسو' --> ''", + "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> ''", + "replace text[84:86] --> decoded_text[136:141] 'هو' --> ''", + "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> ''", + "replace text[92:94] --> decoded_text[148:153] 'ية' --> ''", + "replace text[95:97] --> decoded_text[154:159] 'أخ' --> ''", + "replace text[99:102] --> decoded_text[161:166] 'قية' --> ''", + "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> ''", + "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> ''", + "replace text[116:118] --> decoded_text[179:184] 'ية' --> ''", + "replace text[119:121] --> decoded_text[185:190] 'سي' --> ''", + "replace text[122:125] --> decoded_text[191:196] 'سية' --> ''" + ], + "n_oov_chars": 74, + "oov_ratio": 0.5826771653543307, + "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "ل ا ال الا ا , ل ال ل ال ال ل الا الا ا ا ا ا الل ال..", + "diff": [ + "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> 'ل ا ال الا ا '", + "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> 'ل ال ل ال ال ل الا الا ا ا ا ا الل ال'" + ], + "n_oov_chars": 84, + "oov_ratio": 0.5874125874125874, + "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "ل الاا الا الاا, الاا ا ل ا ا الل ل ال ل لا الل لا ل ل..", + "diff": [ + "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> 'ل الاا الا الاا'", + "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> ' الاا ا ل ا ا الل ل ال ل لا الل لا ل ل'" + ], + "n_oov_chars": 91, + "oov_ratio": 0.5796178343949044, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "ا لا ا الا ا ا الل ل ا .. ل ال- ل لا ال, ل لال, ا الا ل الا ا, ل ال ا لا ل لا..", + "diff": [ + "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> 'ا لا ا الا ا ا الل ل ا '", + "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> ' ل ال'", + "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> ' ل لا ال'", + "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> 'ل '", + "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> ' ا الا ل الا '", + "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> 'ل ال ا لا ل لا'" + ], + "n_oov_chars": 132, + "oov_ratio": 0.584070796460177, + "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "ال الا الا ل ال الا الا للا, ل لا ل لا.. الا الا ال ال, ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا ل, ا ا ال ال الل ل ا ا ال ل ل ا الا ال, ..!", + "diff": [ + "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> ' الا الا ل ال الا الا للا'", + "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> ' لا ل ل'", + "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> 'الا الا ال ال'", + "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> ' ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا '", + "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> ' ا ا ال ال الل ل ا ا ال ل ل ا الا ال'", + "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> ' '", + "replace text[405:406] --> decoded_text[648:653] '؟' --> ''" + ], + "n_oov_chars": 243, + "oov_ratio": 0.597051597051597, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "ل ا الا ل ا ل لا ا ال ل ا ل لا.. ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل !!", + "diff": [ + "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> 'ل ا الا ل ا ل لا ا ال ل ا ل لا'", + "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> ' ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل '" + ], + "n_oov_chars": 156, + "oov_ratio": 0.631578947368421, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "ال.. الل الا.. الل ال , ا, ا لا اا.. ال اا ل الاا الاا الل اا ا , الا, ا..", + "diff": [ + "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '.. الل الا.. الل ال '", + "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> 'ا'", + "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> 'ا لا اا.. ال اا ل الاا الاا الل اا ا '", + "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> ' الا'", + "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> ' ا..'" + ], + "n_oov_chars": 111, + "oov_ratio": 0.5721649484536082, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json index 5de8e43c739a5399115bc40b1f43f48c7c6d6a4f..46104e7ab26b02b5b922f70fabc4c20dd03937ff 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "diff": [ - "replace text[58:59] --> decoded_text[58:63] '„' --> ''", - "replace text[202:203] --> decoded_text[206:211] '€' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.007142857142857143, - "oov_charset": "[\"„\", \"€\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der Püngel-Weihnacht“ an.", - "diff": [ - "replace text[57:58] --> decoded_text[57:62] '„' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012658227848101266, - "oov_charset": "[\"„\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlielich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "diff": [ - "replace text[619:620] --> decoded_text[619:624] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014749262536873156, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlieen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "diff": [ - "replace text[61:62] --> decoded_text[61:66] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0022624434389140274, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlielich zu Zwecken,", - "diff": [ - "replace text[64:65] --> decoded_text[64:69] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012345679012345678, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", - "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", - "diff": [ - "replace text[131:132] --> decoded_text[131:136] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0018867924528301887, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.", - "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis auer diesem Thread hier. Finde ich auch ein bisschen komisch.", - "diff": [ - "replace text[125:126] --> decoded_text[125:130] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"ß\"]" - }, - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", - "decoded_text": "Wei man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", - "diff": [ - "replace text[3:4] --> decoded_text[3:8] 'ß' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007874015748031496, - "oov_charset": "[\"ß\"]" - }, - { - "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", - "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", - "diff": [ - "replace text[132:133] --> decoded_text[132:137] '„' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0036363636363636364, - "oov_charset": "[\"„\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] '„' --> ''", + "replace text[202:203] --> decoded_text[206:211] '€' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"„\", \"€\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der Püngel-Weihnacht“ an.", + "diff": [ + "replace text[57:58] --> decoded_text[57:62] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"„\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlielich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "diff": [ + "replace text[619:620] --> decoded_text[619:624] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014749262536873156, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlieen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[61:62] --> decoded_text[61:66] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0022624434389140274, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlielich zu Zwecken,", + "diff": [ + "replace text[64:65] --> decoded_text[64:69] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012345679012345678, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "diff": [ + "replace text[131:132] --> decoded_text[131:136] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0018867924528301887, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis auer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "diff": [ + "replace text[125:126] --> decoded_text[125:130] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "decoded_text": "Wei man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "diff": [ + "replace text[3:4] --> decoded_text[3:8] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"ß\"]" + }, + { + "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "diff": [ + "replace text[132:133] --> decoded_text[132:137] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0036363636363636364, + "oov_charset": "[\"„\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json index d22a93959dc662f1135f415167fcc23cf6c3572a..7235131029fef33e01ae1ca2f5168178d58992a2 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", - "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about 1.50.", - "diff": [ - "replace text[249:250] --> decoded_text[249:254] '£' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"£\"]" - }, - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "Would love some tatts, but too much of a wimp to get them! 😥", - "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", - "diff": [ - "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"😥\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", + "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about 1.50.", + "diff": [ + "replace text[249:250] --> decoded_text[249:254] '£' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"£\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json index e22060dee89eb8abafc06fd4562a36cf3297d87a..a636445e131fbb2a8ce3641a8d6af3b83eb08960 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json @@ -1,180 +1,180 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "ا : February 2012", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", - "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", - "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", - "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" - ], - "n_oov_chars": 13, - "oov_ratio": 0.41935483870967744, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "ا ", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", - "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", - "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", - "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" - ], - "n_oov_chars": 13, - "oov_ratio": 0.8125, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": " :2 ا ا ", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> ''", - "replace text[6:10] --> decoded_text[6:11] 'پودر' --> ''", - "replace text[13:14] --> decoded_text[14:19] 'ق' --> ''", - "replace text[15:17] --> decoded_text[20:25] 'شق' --> ''", - "replace text[18:19] --> decoded_text[26:31] 'چ' --> ''", - "replace text[20:21] --> decoded_text[32:37] 'ی' --> ''", - "replace text[22:26] --> decoded_text[38:43] 'خوری' --> ''" - ], - "n_oov_chars": 18, - "oov_ratio": 0.6923076923076923, - "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": " :2 ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'تخم' --> ''", - "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> ''", - "replace text[10:13] --> decoded_text[14:19] 'عدد' --> ''", - "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> ''" - ], - "n_oov_chars": 13, - "oov_ratio": 0.7222222222222222, - "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": ":225 ا اا ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", - "replace text[8:11] --> decoded_text[10:15] 'گرم' --> ''", - "replace text[12:14] --> decoded_text[16:21] 'به' --> ''", - "replace text[15:17] --> decoded_text[22:27] 'دم' --> ''", - "replace text[18:19] --> decoded_text[28:33] 'ی' --> ''", - "replace text[21:22] --> decoded_text[35:40] 'ت' --> ''", - "replace text[23:24] --> decoded_text[41:46] 'ق' --> ''", - "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> ''" - ], - "n_oov_chars": 18, - "oov_ratio": 0.6, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": ":11/2 ا+ 3 ا ا ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'شکر' --> ''", - "replace text[5:6] --> decoded_text[7:12] 'و' --> ''", - "replace text[10:13] --> decoded_text[16:21] 'پیم' --> ''", - "replace text[14:16] --> decoded_text[22:27] 'نه' --> ''", - "replace text[20:21] --> decoded_text[31:36] 'ق' --> ''", - "replace text[22:24] --> decoded_text[37:42] 'شق' --> ''", - "replace text[25:27] --> decoded_text[43:48] 'غذ' --> ''", - "replace text[29:33] --> decoded_text[50:55] 'خوری' --> ''" - ], - "n_oov_chars": 18, - "oov_ratio": 0.5454545454545454, - "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": " ا:2 1/2ا ا ", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'پودر' --> ''", - "replace text[5:6] --> decoded_text[6:11] 'د' --> ''", - "replace text[7:11] --> decoded_text[12:17] 'رچین' --> ''", - "replace text[14:15] --> decoded_text[20:25] 'و' --> ''", - "replace text[18:19] --> decoded_text[28:33] 'ق' --> ''", - "replace text[20:22] --> decoded_text[34:39] 'شق' --> ''", - "replace text[23:24] --> decoded_text[40:45] 'چ' --> ''", - "replace text[25:26] --> decoded_text[46:51] 'ی' --> ''", - "replace text[27:31] --> decoded_text[52:57] 'خوری' --> ''" - ], - "n_oov_chars": 19, - "oov_ratio": 0.6129032258064516, - "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" - }, - { - "text": "فر رو روی 350 درجه فارنهایت روشن کنید", - "decoded_text": " 350 اا ", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'فر' --> ''", - "replace text[3:5] --> decoded_text[6:11] 'رو' --> ''", - "replace text[6:9] --> decoded_text[12:17] 'روی' --> ''", - "replace text[14:18] --> decoded_text[22:27] 'درجه' --> ''", - "replace text[19:20] --> decoded_text[28:33] 'ف' --> ''", - "replace text[21:24] --> decoded_text[34:39] 'رنه' --> ''", - "replace text[25:27] --> decoded_text[40:45] 'یت' --> ''", - "replace text[28:32] --> decoded_text[46:51] 'روشن' --> ''", - "replace text[33:37] --> decoded_text[52:57] 'کنید' --> ''" - ], - "n_oov_chars": 25, - "oov_ratio": 0.6756756756756757, - "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]" - }, - { - "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", - "decoded_text": " ا ا ا اا ", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", - "replace text[4:6] --> decoded_text[6:11] 'رو' --> ''", - "replace text[7:8] --> decoded_text[12:17] 'ب' --> ''", - "replace text[10:13] --> decoded_text[19:24] 'شکر' --> ''", - "replace text[14:16] --> decoded_text[25:30] 'هم' --> ''", - "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> ''", - "replace text[23:24] --> decoded_text[37:42] 'ت' --> ''", - "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> ''", - "replace text[32:33] --> decoded_text[50:55] 'و' --> ''", - "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> ''", - "replace text[39:42] --> decoded_text[62:67] 'بشه' --> ''", - "replace text[43:46] --> decoded_text[68:73] 'تخم' --> ''", - "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> ''", - "replace text[53:55] --> decoded_text[81:86] 'رو' --> ''", - "replace text[56:60] --> decoded_text[87:92] 'دونه' --> ''", - "replace text[61:65] --> decoded_text[93:98] 'دونه' --> ''", - "replace text[67:68] --> decoded_text[100:105] 'ض' --> ''", - "replace text[69:71] --> decoded_text[106:111] 'فه' --> ''", - "replace text[72:76] --> decoded_text[112:117] 'کنید' --> ''", - "replace text[77:78] --> decoded_text[118:123] 'و' --> ''", - "replace text[79:81] --> decoded_text[124:129] 'هم' --> ''", - "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> ''" - ], - "n_oov_chars": 62, - "oov_ratio": 0.7126436781609196, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" - }, - { - "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", - "decoded_text": "ا ال اا ", - "diff": [ - "replace text[1:3] --> decoded_text[1:6] 'رد' --> ''", - "replace text[4:5] --> decoded_text[7:12] 'و' --> ''", - "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> ''", - "replace text[12:16] --> decoded_text[19:24] 'پودر' --> ''", - "replace text[17:18] --> decoded_text[25:30] 'و' --> ''", - "replace text[19:22] --> decoded_text[31:36] 'نمک' --> ''", - "replace text[23:25] --> decoded_text[37:42] 'رو' --> ''", - "replace text[28:29] --> decoded_text[45:50] 'ک' --> ''", - "replace text[30:34] --> decoded_text[51:56] 'کنید' --> ''", - "replace text[35:36] --> decoded_text[57:62] 'و' --> ''", - "replace text[38:39] --> decoded_text[64:69] 'ض' --> ''", - "replace text[40:42] --> decoded_text[70:75] 'فه' --> ''", - "replace text[43:47] --> decoded_text[76:81] 'کنید' --> ''" - ], - "n_oov_chars": 31, - "oov_ratio": 0.6595744680851063, - "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "ا : February 2012", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.41935483870967744, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.8125, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": " :2 ا ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> ''", + "replace text[6:10] --> decoded_text[6:11] 'پودر' --> ''", + "replace text[13:14] --> decoded_text[14:19] 'ق' --> ''", + "replace text[15:17] --> decoded_text[20:25] 'شق' --> ''", + "replace text[18:19] --> decoded_text[26:31] 'چ' --> ''", + "replace text[20:21] --> decoded_text[32:37] 'ی' --> ''", + "replace text[22:26] --> decoded_text[38:43] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6923076923076923, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": " :2 ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> ''", + "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> ''", + "replace text[10:13] --> decoded_text[14:19] 'عدد' --> ''", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": ":225 ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[8:11] --> decoded_text[10:15] 'گرم' --> ''", + "replace text[12:14] --> decoded_text[16:21] 'به' --> ''", + "replace text[15:17] --> decoded_text[22:27] 'دم' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ی' --> ''", + "replace text[21:22] --> decoded_text[35:40] 'ت' --> ''", + "replace text[23:24] --> decoded_text[41:46] 'ق' --> ''", + "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": ":11/2 ا+ 3 ا ا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'شکر' --> ''", + "replace text[5:6] --> decoded_text[7:12] 'و' --> ''", + "replace text[10:13] --> decoded_text[16:21] 'پیم' --> ''", + "replace text[14:16] --> decoded_text[22:27] 'نه' --> ''", + "replace text[20:21] --> decoded_text[31:36] 'ق' --> ''", + "replace text[22:24] --> decoded_text[37:42] 'شق' --> ''", + "replace text[25:27] --> decoded_text[43:48] 'غذ' --> ''", + "replace text[29:33] --> decoded_text[50:55] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.5454545454545454, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": " ا:2 1/2ا ا ", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> ''", + "replace text[5:6] --> decoded_text[6:11] 'د' --> ''", + "replace text[7:11] --> decoded_text[12:17] 'رچین' --> ''", + "replace text[14:15] --> decoded_text[20:25] 'و' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ق' --> ''", + "replace text[20:22] --> decoded_text[34:39] 'شق' --> ''", + "replace text[23:24] --> decoded_text[40:45] 'چ' --> ''", + "replace text[25:26] --> decoded_text[46:51] 'ی' --> ''", + "replace text[27:31] --> decoded_text[52:57] 'خوری' --> ''" + ], + "n_oov_chars": 19, + "oov_ratio": 0.6129032258064516, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": " 350 اا ", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> ''", + "replace text[3:5] --> decoded_text[6:11] 'رو' --> ''", + "replace text[6:9] --> decoded_text[12:17] 'روی' --> ''", + "replace text[14:18] --> decoded_text[22:27] 'درجه' --> ''", + "replace text[19:20] --> decoded_text[28:33] 'ف' --> ''", + "replace text[21:24] --> decoded_text[34:39] 'رنه' --> ''", + "replace text[25:27] --> decoded_text[40:45] 'یت' --> ''", + "replace text[28:32] --> decoded_text[46:51] 'روشن' --> ''", + "replace text[33:37] --> decoded_text[52:57] 'کنید' --> ''" + ], + "n_oov_chars": 25, + "oov_ratio": 0.6756756756756757, + "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": " ا ا ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[4:6] --> decoded_text[6:11] 'رو' --> ''", + "replace text[7:8] --> decoded_text[12:17] 'ب' --> ''", + "replace text[10:13] --> decoded_text[19:24] 'شکر' --> ''", + "replace text[14:16] --> decoded_text[25:30] 'هم' --> ''", + "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> ''", + "replace text[23:24] --> decoded_text[37:42] 'ت' --> ''", + "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> ''", + "replace text[32:33] --> decoded_text[50:55] 'و' --> ''", + "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> ''", + "replace text[39:42] --> decoded_text[62:67] 'بشه' --> ''", + "replace text[43:46] --> decoded_text[68:73] 'تخم' --> ''", + "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> ''", + "replace text[53:55] --> decoded_text[81:86] 'رو' --> ''", + "replace text[56:60] --> decoded_text[87:92] 'دونه' --> ''", + "replace text[61:65] --> decoded_text[93:98] 'دونه' --> ''", + "replace text[67:68] --> decoded_text[100:105] 'ض' --> ''", + "replace text[69:71] --> decoded_text[106:111] 'فه' --> ''", + "replace text[72:76] --> decoded_text[112:117] 'کنید' --> ''", + "replace text[77:78] --> decoded_text[118:123] 'و' --> ''", + "replace text[79:81] --> decoded_text[124:129] 'هم' --> ''", + "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7126436781609196, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ا ال اا ", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] 'رد' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'و' --> ''", + "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> ''", + "replace text[12:16] --> decoded_text[19:24] 'پودر' --> ''", + "replace text[17:18] --> decoded_text[25:30] 'و' --> ''", + "replace text[19:22] --> decoded_text[31:36] 'نمک' --> ''", + "replace text[23:25] --> decoded_text[37:42] 'رو' --> ''", + "replace text[28:29] --> decoded_text[45:50] 'ک' --> ''", + "replace text[30:34] --> decoded_text[51:56] 'کنید' --> ''", + "replace text[35:36] --> decoded_text[57:62] 'و' --> ''", + "replace text[38:39] --> decoded_text[64:69] 'ض' --> ''", + "replace text[40:42] --> decoded_text[70:75] 'فه' --> ''", + "replace text[43:47] --> decoded_text[76:81] 'کنید' --> ''" + ], + "n_oov_chars": 31, + "oov_ratio": 0.6595744680851063, + "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json index 7131da7057911ab1a20bb6a75ebebb47fb66160b..672766159eff774c4e95628dccdb42dc89bed975 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut tre temps de le commencer.", - "diff": [ - "replace text[102:103] --> decoded_text[102:107] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007751937984496124, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- Je dois tre mentalement instable, par moments", - "diff": [ - "replace text[10:11] --> decoded_text[10:15] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", - "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en mme temps très étourdie", - "diff": [ - "replace text[164:165] --> decoded_text[164:169] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0053475935828877, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", - "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d me garder une heure en plus pour m'expliquer des démonstrations)", - "diff": [ - "replace text[164:165] --> decoded_text[164:169] 'û' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004347826086956522, - "oov_charset": "[\"û\"]" - }, - { - "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", - "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand mme)", - "diff": [ - "replace text[163:164] --> decoded_text[163:168] 'ê' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005988023952095809, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", - "decoded_text": "- je préfère largement passer du temps avec les gens de mon ge ou plus ou moins (généralement pas mon ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", - "diff": [ - "replace text[60:61] --> decoded_text[60:65] 'â' --> ''", - "replace text[103:104] --> decoded_text[107:112] 'â' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"â\"]" - }, - { - "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens", - "decoded_text": "- j'aime chanter, faire du thétre et provoquer des émotions chez les gens", - "diff": [ - "replace text[30:31] --> decoded_text[30:35] 'â' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"â\"]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnatre quand j'ai tort", - "diff": [ - "replace text[49:50] --> decoded_text[49:54] 'ê' --> ''", - "delete text[150:151] --> decoded_text[154:154] ' ' --> ''", - "replace text[170:171] --> decoded_text[173:178] 'î' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"ê\", \"î\"]" - }, - { - "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", - "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-tre trop bien que tout le monde est différent", - "diff": [ - "replace text[90:91] --> decoded_text[90:95] 'ê' --> ''", - "replace text[187:188] --> decoded_text[191:196] 'ê' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008583690987124463, - "oov_charset": "[\"ê\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut tre temps de le commencer.", + "diff": [ + "replace text[102:103] --> decoded_text[102:107] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois tre mentalement instable, par moments", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", + "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en mme temps très étourdie", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0053475935828877, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'û' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004347826086956522, + "oov_charset": "[\"û\"]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand mme)", + "diff": [ + "replace text[163:164] --> decoded_text[163:168] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005988023952095809, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon ge ou plus ou moins (généralement pas mon ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "diff": [ + "replace text[60:61] --> decoded_text[60:65] 'â' --> ''", + "replace text[103:104] --> decoded_text[107:112] 'â' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens", + "decoded_text": "- j'aime chanter, faire du thétre et provoquer des émotions chez les gens", + "diff": [ + "replace text[30:31] --> decoded_text[30:35] 'â' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnatre quand j'ai tort", + "diff": [ + "replace text[49:50] --> decoded_text[49:54] 'ê' --> ''", + "delete text[150:151] --> decoded_text[154:154] ' ' --> ''", + "replace text[170:171] --> decoded_text[173:178] 'î' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"ê\", \"î\"]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-tre trop bien que tout le monde est différent", + "diff": [ + "replace text[90:91] --> decoded_text[90:95] 'ê' --> ''", + "replace text[187:188] --> decoded_text[191:196] 'ê' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008583690987124463, + "oov_charset": "[\"ê\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json index d729eddac37003accee685c0de0293dddc73df58..a3ced192f52737d318e07e08fe7f6862b490a356 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", - "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整されてる央道を越えるとお世話になってるボウリング場が見えて来ました。", - "diff": [ - "replace text[31:32] --> decoded_text[31:36] '備' --> ''", - "replace text[36:37] --> decoded_text[40:45] '圏' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029850746268656716, - "oov_charset": "[\"備\", \"圏\"]" - }, - { - "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "decoded_text": "う〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "diff": [ - "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.021739130434782608, - "oov_charset": "[\"ぅ\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", - "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの断をもらっていました。", - "diff": [ - "replace text[31:32] --> decoded_text[31:36] '診' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"診\"]" - }, - { - "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "decoded_text": "ただ、これまでお散仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "diff": [ - "replace text[9:10] --> decoded_text[9:14] '歩' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"歩\"]" - }, - { - "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", - "decoded_text": "昔はヒアルロン酸の目なども方されてたようですが、これがく事はないそうです。", - "diff": [ - "replace text[10:11] --> decoded_text[10:15] '薬' --> ''", - "replace text[14:15] --> decoded_text[18:23] '処' --> ''", - "replace text[29:30] --> decoded_text[37:42] '効' --> ''" - ], - "n_oov_chars": 3, - "oov_ratio": 0.075, - "oov_charset": "[\"薬\", \"処\", \"効\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散でもれたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[12:13] --> decoded_text[12:17] '歩' --> ''", - "replace text[15:16] --> decoded_text[19:24] '訪' --> ''", - "replace text[35:36] --> decoded_text[43:44] '5' --> '5'", - "replace text[51:52] --> decoded_text[59:60] '1' --> '1'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.0625, - "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]" - }, - { - "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", - "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードでけていくのを目の当たりにしてちょっとビビっておりました", - "diff": [ - "replace text[41:42] --> decoded_text[41:46] '駆' --> ''", - "replace text[43:44] --> decoded_text[47:52] '抜' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.028169014084507043, - "oov_charset": "[\"駆\", \"抜\"]" - }, - { - "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", - "decoded_text": "彼らには対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", - "diff": [ - "replace text[4:5] --> decoded_text[4:9] '絶' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.025, - "oov_charset": "[\"絶\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整されてる央道を越えるとお世話になってるボウリング場が見えて来ました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '備' --> ''", + "replace text[36:37] --> decoded_text[40:45] '圏' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029850746268656716, + "oov_charset": "[\"備\", \"圏\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "う〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"ぅ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの断をもらっていました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '診' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"診\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "ただ、これまでお散仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '歩' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"歩\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔はヒアルロン酸の目なども方されてたようですが、これがく事はないそうです。", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] '薬' --> ''", + "replace text[14:15] --> decoded_text[18:23] '処' --> ''", + "replace text[29:30] --> decoded_text[37:42] '効' --> ''" + ], + "n_oov_chars": 3, + "oov_ratio": 0.075, + "oov_charset": "[\"薬\", \"処\", \"効\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散でもれたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[12:13] --> decoded_text[12:17] '歩' --> ''", + "replace text[15:16] --> decoded_text[19:24] '訪' --> ''", + "replace text[35:36] --> decoded_text[43:44] '5' --> '5'", + "replace text[51:52] --> decoded_text[59:60] '1' --> '1'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.0625, + "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードでけていくのを目の当たりにしてちょっとビビっておりました", + "diff": [ + "replace text[41:42] --> decoded_text[41:46] '駆' --> ''", + "replace text[43:44] --> decoded_text[47:52] '抜' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.028169014084507043, + "oov_charset": "[\"駆\", \"抜\"]" + }, + { + "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "decoded_text": "彼らには対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] '絶' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"絶\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json index 8f7f74b82862bc469d4dfd2df19495f4ddde1432..295482299df989b8966c42e3931502bcf881c99e 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json @@ -1,255 +1,255 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ HOME > ", - "diff": [ - "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> ''" - ], - "n_oov_chars": 6, - "oov_ratio": 0.4, - "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": " 15~17 3 .", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] '특히' --> ''", - "replace text[3:5] --> decoded_text[6:11] '주소' --> ''", - "replace text[11:12] --> decoded_text[17:22] '번' --> ''", - "replace text[13:16] --> decoded_text[23:28] '홀에선' --> ''", - "replace text[18:20] --> decoded_text[30:35] '연속' --> ''", - "replace text[21:24] --> decoded_text[36:41] '보기로' --> ''", - "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> ''", - "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> ''" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "1'- ' 2 .", - "diff": [ - "replace text[1:3] --> decoded_text[1:6] '편인' --> ''", - "replace text[4:8] --> decoded_text[7:12] '신과함께' --> ''", - "replace text[9:11] --> decoded_text[13:18] '죄와' --> ''", - "replace text[12:13] --> decoded_text[19:24] '벌' --> ''", - "replace text[14:15] --> decoded_text[25:30] '이' --> ''", - "replace text[16:19] --> decoded_text[31:36] '천만을' --> ''", - "replace text[20:22] --> decoded_text[37:42] '넘은' --> ''", - "replace text[23:25] --> decoded_text[43:48] '만큼' --> ''", - "replace text[27:29] --> decoded_text[50:55] '편을' --> ''", - "replace text[30:33] --> decoded_text[56:61] '기다린' --> ''", - "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> ''", - "replace text[43:47] --> decoded_text[68:73] '관객들의' --> ''", - "replace text[48:51] --> decoded_text[74:79] '기대와' --> ''", - "replace text[52:54] --> decoded_text[80:85] '주소' --> ''", - "replace text[55:58] --> decoded_text[86:91] '관심은' --> ''", - "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> ''" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": " ' ' . .", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '고려해서' --> ''", - "replace text[5:7] --> decoded_text[6:11] '주소' --> ''", - "replace text[9:12] --> decoded_text[13:18] '대체재' --> ''", - "replace text[13:15] --> decoded_text[19:24] '일색' --> ''", - "replace text[16:17] --> decoded_text[25:30] '의' --> ''", - "replace text[18:21] --> decoded_text[31:36] '분재를' --> ''", - "replace text[22:25] --> decoded_text[37:42] '내놓을' --> ''", - "replace text[26:29] --> decoded_text[43:48] '위험이' --> ''", - "replace text[30:32] --> decoded_text[49:54] '있다' --> ''", - "replace text[34:37] --> decoded_text[56:61] '문학의' --> ''", - "replace text[38:41] --> decoded_text[62:67] '자유를' --> ''", - "replace text[42:46] --> decoded_text[68:73] '소설가가' --> ''", - "replace text[47:50] --> decoded_text[74:79] '스스로' --> ''", - "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> ''", - "replace text[60:64] --> decoded_text[86:91] '출판사에' --> ''", - "replace text[65:69] --> decoded_text[92:97] '상납하는' --> ''", - "replace text[70:73] --> decoded_text[98:103] '것이다' --> ''" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": " (22) 43(2 ) 3(.246.270.508). .", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> ''", - "replace text[7:9] --> decoded_text[6:11] '유산' --> ''", - "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> ''", - "replace text[15:17] --> decoded_text[18:23] '주소' --> ''", - "replace text[18:21] --> decoded_text[24:29] '바레토' --> ''", - "replace text[25:26] --> decoded_text[33:38] '는' --> ''", - "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> ''", - "replace text[37:39] --> decoded_text[46:51] '타수' --> ''", - "replace text[40:42] --> decoded_text[52:57] '안타' --> ''", - "replace text[44:46] --> decoded_text[59:64] '루타' --> ''", - "replace text[47:49] --> decoded_text[65:70] '홈런' --> ''", - "replace text[52:54] --> decoded_text[73:78] '타점' --> ''", - "delete text[59:60] --> decoded_text[83:83] ' ' --> ''", - "delete text[64:65] --> decoded_text[87:87] ' ' --> ''", - "replace text[72:75] --> decoded_text[94:99] '하지만' --> ''", - "replace text[76:79] --> decoded_text[100:105] '아직은' --> ''", - "replace text[80:84] --> decoded_text[106:111] '트레이드' --> ''", - "replace text[85:88] --> decoded_text[112:117] '당시의' --> ''", - "replace text[89:93] --> decoded_text[118:123] '기대치를' --> ''", - "replace text[94:98] --> decoded_text[124:129] '보여주지' --> ''", - "replace text[99:102] --> decoded_text[130:135] '못하고' --> ''", - "replace text[103:105] --> decoded_text[136:141] '있다' --> ''" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": " 2 . A, B 1 12-4- 3 , C, D, E, F 1 12-6-4- 4 .", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> ''", - "replace text[8:10] --> decoded_text[7:12] '팀이' --> ''", - "replace text[11:15] --> decoded_text[13:18] '준결승에' --> ''", - "replace text[16:19] --> decoded_text[19:24] '오른다' --> ''", - "replace text[21:23] --> decoded_text[26:31] '결국' --> ''", - "replace text[28:29] --> decoded_text[36:41] '조' --> ''", - "replace text[31:33] --> decoded_text[43:48] '위는' --> ''", - "replace text[36:37] --> decoded_text[51:56] '강' --> ''", - "replace text[39:40] --> decoded_text[58:63] '강' --> ''", - "replace text[41:45] --> decoded_text[64:69] '결승으로' --> ''", - "replace text[47:50] --> decoded_text[71:76] '경기를' --> ''", - "replace text[51:55] --> decoded_text[77:82] '치르지만' --> ''", - "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> ''", - "replace text[76:77] --> decoded_text[100:105] '조' --> ''", - "replace text[79:81] --> decoded_text[107:112] '위는' --> ''", - "replace text[82:84] --> decoded_text[113:118] '주소' --> ''", - "replace text[87:88] --> decoded_text[121:126] '강' --> ''", - "replace text[90:91] --> decoded_text[128:133] '강' --> ''", - "replace text[93:94] --> decoded_text[135:140] '강' --> ''", - "replace text[95:99] --> decoded_text[141:146] '결승으로' --> ''", - "replace text[101:104] --> decoded_text[148:153] '경기를' --> ''", - "replace text[105:107] --> decoded_text[154:159] '해야' --> ''", - "replace text[108:110] --> decoded_text[160:165] '한다' --> ''" - ], - "n_oov_chars": 60, - "oov_ratio": 0.5405405405405406, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": " . ' 1' , .", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '또한이날' --> ''", - "replace text[5:8] --> decoded_text[6:11] '눈길을' --> ''", - "replace text[9:11] --> decoded_text[12:17] '주소' --> ''", - "replace text[12:13] --> decoded_text[18:23] '끈' --> ''", - "replace text[14:16] --> decoded_text[24:29] '것은' --> ''", - "replace text[17:18] --> decoded_text[30:35] '한' --> ''", - "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> ''", - "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> ''", - "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> ''", - "replace text[41:44] --> decoded_text[55:60] '배우의' --> ''", - "replace text[45:48] --> decoded_text[61:66] '매니저' --> ''", - "replace text[49:51] --> decoded_text[67:72] '일을' --> ''", - "replace text[52:54] --> decoded_text[73:78] '하고' --> ''", - "replace text[55:58] --> decoded_text[79:84] '있다는' --> ''", - "replace text[59:60] --> decoded_text[85:90] '한' --> ''", - "replace text[61:65] --> decoded_text[91:96] '청취자의' --> ''", - "replace text[66:69] --> decoded_text[97:102] '사연에' --> ''", - "replace text[70:74] --> decoded_text[103:108] '박명수는' --> ''", - "replace text[76:79] --> decoded_text[110:115] '실시간' --> ''", - "replace text[80:83] --> decoded_text[116:121] '검색어' --> ''", - "replace text[85:86] --> decoded_text[123:128] '위' --> ''", - "replace text[87:88] --> decoded_text[129:134] '를' --> ''", - "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> ''", - "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> ''", - "replace text[104:106] --> decoded_text[148:153] '했다' --> ''" - ], - "n_oov_chars": 78, - "oov_ratio": 0.7289719626168224, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": " , . .", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> ''", - "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> ''", - "replace text[15:17] --> decoded_text[12:17] '시즌' --> ''", - "replace text[19:23] --> decoded_text[19:24] '호날두와' --> ''", - "replace text[24:28] --> decoded_text[25:30] '이과인이' --> ''", - "replace text[29:31] --> decoded_text[31:36] '다시' --> ''", - "replace text[32:34] --> decoded_text[37:42] '주소' --> ''", - "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> ''", - "replace text[40:42] --> decoded_text[49:54] '먹는' --> ''", - "replace text[43:45] --> decoded_text[55:60] '일이' --> ''", - "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> ''", - "replace text[52:56] --> decoded_text[68:73] '호날두가' --> ''", - "replace text[58:59] --> decoded_text[75:80] '빅' --> ''", - "replace text[60:63] --> decoded_text[81:86] '사이닝' --> ''", - "replace text[64:65] --> decoded_text[87:92] '을' --> ''", - "replace text[66:68] --> decoded_text[93:98] '통해' --> ''", - "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> ''", - "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> ''", - "replace text[79:83] --> decoded_text[111:116] '때문이다' --> ''" - ], - "n_oov_chars": 62, - "oov_ratio": 0.7380952380952381, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": " .", - "diff": [ - "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> ''", - "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> ''", - "replace text[18:20] --> decoded_text[12:17] '위해' --> ''", - "replace text[21:24] --> decoded_text[18:23] '홍천에' --> ''", - "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> ''", - "replace text[34:36] --> decoded_text[30:35] '주소' --> ''", - "replace text[37:39] --> decoded_text[36:41] '왔다' --> ''" - ], - "n_oov_chars": 33, - "oov_ratio": 0.825, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": " , . .", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> ''", - "replace text[6:9] --> decoded_text[6:11] '나란히' --> ''", - "replace text[10:12] --> decoded_text[12:17] '앉아' --> ''", - "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> ''", - "replace text[18:21] --> decoded_text[24:29] '한다는' --> ''", - "replace text[22:23] --> decoded_text[30:35] '게' --> ''", - "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> ''", - "replace text[29:31] --> decoded_text[42:47] '법도' --> ''", - "replace text[32:34] --> decoded_text[48:53] '한데' --> ''", - "replace text[36:38] --> decoded_text[55:60] '주소' --> ''", - "replace text[39:40] --> decoded_text[61:66] '둘' --> ''", - "replace text[41:45] --> decoded_text[67:72] '사이에는' --> ''", - "replace text[46:48] --> decoded_text[73:78] '어떤' --> ''", - "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> ''", - "replace text[54:57] --> decoded_text[85:90] '없었다' --> ''", - "replace text[59:61] --> decoded_text[92:97] '마치' --> ''", - "replace text[62:65] --> decoded_text[98:103] '하루에' --> ''", - "replace text[66:67] --> decoded_text[104:109] '한' --> ''", - "replace text[68:70] --> decoded_text[110:115] '번씩' --> ''", - "replace text[71:74] --> decoded_text[116:121] '만나는' --> ''", - "replace text[75:77] --> decoded_text[122:127] '친구' --> ''", - "replace text[78:80] --> decoded_text[128:133] '같은' --> ''", - "replace text[81:84] --> decoded_text[134:139] '느낌이' --> ''", - "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> ''", - "replace text[94:97] --> decoded_text[146:151] '강했다' --> ''" - ], - "n_oov_chars": 71, - "oov_ratio": 0.7244897959183674, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ HOME > ", + "diff": [ + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> ''" + ], + "n_oov_chars": 6, + "oov_ratio": 0.4, + "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": " 15~17 3 .", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> ''", + "replace text[3:5] --> decoded_text[6:11] '주소' --> ''", + "replace text[11:12] --> decoded_text[17:22] '번' --> ''", + "replace text[13:16] --> decoded_text[23:28] '홀에선' --> ''", + "replace text[18:20] --> decoded_text[30:35] '연속' --> ''", + "replace text[21:24] --> decoded_text[36:41] '보기로' --> ''", + "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> ''", + "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> ''" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1'- ' 2 .", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] '편인' --> ''", + "replace text[4:8] --> decoded_text[7:12] '신과함께' --> ''", + "replace text[9:11] --> decoded_text[13:18] '죄와' --> ''", + "replace text[12:13] --> decoded_text[19:24] '벌' --> ''", + "replace text[14:15] --> decoded_text[25:30] '이' --> ''", + "replace text[16:19] --> decoded_text[31:36] '천만을' --> ''", + "replace text[20:22] --> decoded_text[37:42] '넘은' --> ''", + "replace text[23:25] --> decoded_text[43:48] '만큼' --> ''", + "replace text[27:29] --> decoded_text[50:55] '편을' --> ''", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> ''", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> ''", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> ''", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> ''", + "replace text[52:54] --> decoded_text[80:85] '주소' --> ''", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> ''", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": " ' ' . .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> ''", + "replace text[5:7] --> decoded_text[6:11] '주소' --> ''", + "replace text[9:12] --> decoded_text[13:18] '대체재' --> ''", + "replace text[13:15] --> decoded_text[19:24] '일색' --> ''", + "replace text[16:17] --> decoded_text[25:30] '의' --> ''", + "replace text[18:21] --> decoded_text[31:36] '분재를' --> ''", + "replace text[22:25] --> decoded_text[37:42] '내놓을' --> ''", + "replace text[26:29] --> decoded_text[43:48] '위험이' --> ''", + "replace text[30:32] --> decoded_text[49:54] '있다' --> ''", + "replace text[34:37] --> decoded_text[56:61] '문학의' --> ''", + "replace text[38:41] --> decoded_text[62:67] '자유를' --> ''", + "replace text[42:46] --> decoded_text[68:73] '소설가가' --> ''", + "replace text[47:50] --> decoded_text[74:79] '스스로' --> ''", + "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> ''", + "replace text[60:64] --> decoded_text[86:91] '출판사에' --> ''", + "replace text[65:69] --> decoded_text[92:97] '상납하는' --> ''", + "replace text[70:73] --> decoded_text[98:103] '것이다' --> ''" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": " (22) 43(2 ) 3(.246.270.508). .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> ''", + "replace text[7:9] --> decoded_text[6:11] '유산' --> ''", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> ''", + "replace text[15:17] --> decoded_text[18:23] '주소' --> ''", + "replace text[18:21] --> decoded_text[24:29] '바레토' --> ''", + "replace text[25:26] --> decoded_text[33:38] '는' --> ''", + "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> ''", + "replace text[37:39] --> decoded_text[46:51] '타수' --> ''", + "replace text[40:42] --> decoded_text[52:57] '안타' --> ''", + "replace text[44:46] --> decoded_text[59:64] '루타' --> ''", + "replace text[47:49] --> decoded_text[65:70] '홈런' --> ''", + "replace text[52:54] --> decoded_text[73:78] '타점' --> ''", + "delete text[59:60] --> decoded_text[83:83] ' ' --> ''", + "delete text[64:65] --> decoded_text[87:87] ' ' --> ''", + "replace text[72:75] --> decoded_text[94:99] '하지만' --> ''", + "replace text[76:79] --> decoded_text[100:105] '아직은' --> ''", + "replace text[80:84] --> decoded_text[106:111] '트레이드' --> ''", + "replace text[85:88] --> decoded_text[112:117] '당시의' --> ''", + "replace text[89:93] --> decoded_text[118:123] '기대치를' --> ''", + "replace text[94:98] --> decoded_text[124:129] '보여주지' --> ''", + "replace text[99:102] --> decoded_text[130:135] '못하고' --> ''", + "replace text[103:105] --> decoded_text[136:141] '있다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": " 2 . A, B 1 12-4- 3 , C, D, E, F 1 12-6-4- 4 .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> ''", + "replace text[8:10] --> decoded_text[7:12] '팀이' --> ''", + "replace text[11:15] --> decoded_text[13:18] '준결승에' --> ''", + "replace text[16:19] --> decoded_text[19:24] '오른다' --> ''", + "replace text[21:23] --> decoded_text[26:31] '결국' --> ''", + "replace text[28:29] --> decoded_text[36:41] '조' --> ''", + "replace text[31:33] --> decoded_text[43:48] '위는' --> ''", + "replace text[36:37] --> decoded_text[51:56] '강' --> ''", + "replace text[39:40] --> decoded_text[58:63] '강' --> ''", + "replace text[41:45] --> decoded_text[64:69] '결승으로' --> ''", + "replace text[47:50] --> decoded_text[71:76] '경기를' --> ''", + "replace text[51:55] --> decoded_text[77:82] '치르지만' --> ''", + "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> ''", + "replace text[76:77] --> decoded_text[100:105] '조' --> ''", + "replace text[79:81] --> decoded_text[107:112] '위는' --> ''", + "replace text[82:84] --> decoded_text[113:118] '주소' --> ''", + "replace text[87:88] --> decoded_text[121:126] '강' --> ''", + "replace text[90:91] --> decoded_text[128:133] '강' --> ''", + "replace text[93:94] --> decoded_text[135:140] '강' --> ''", + "replace text[95:99] --> decoded_text[141:146] '결승으로' --> ''", + "replace text[101:104] --> decoded_text[148:153] '경기를' --> ''", + "replace text[105:107] --> decoded_text[154:159] '해야' --> ''", + "replace text[108:110] --> decoded_text[160:165] '한다' --> ''" + ], + "n_oov_chars": 60, + "oov_ratio": 0.5405405405405406, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": " . ' 1' , .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> ''", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> ''", + "replace text[9:11] --> decoded_text[12:17] '주소' --> ''", + "replace text[12:13] --> decoded_text[18:23] '끈' --> ''", + "replace text[14:16] --> decoded_text[24:29] '것은' --> ''", + "replace text[17:18] --> decoded_text[30:35] '한' --> ''", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> ''", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> ''", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> ''", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> ''", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> ''", + "replace text[49:51] --> decoded_text[67:72] '일을' --> ''", + "replace text[52:54] --> decoded_text[73:78] '하고' --> ''", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> ''", + "replace text[59:60] --> decoded_text[85:90] '한' --> ''", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> ''", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> ''", + "replace text[70:74] --> decoded_text[103:108] '박명수는' --> ''", + "replace text[76:79] --> decoded_text[110:115] '실시간' --> ''", + "replace text[80:83] --> decoded_text[116:121] '검색어' --> ''", + "replace text[85:86] --> decoded_text[123:128] '위' --> ''", + "replace text[87:88] --> decoded_text[129:134] '를' --> ''", + "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> ''", + "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> ''", + "replace text[104:106] --> decoded_text[148:153] '했다' --> ''" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> ''", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> ''", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> ''", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> ''", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> ''", + "replace text[29:31] --> decoded_text[31:36] '다시' --> ''", + "replace text[32:34] --> decoded_text[37:42] '주소' --> ''", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> ''", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> ''", + "replace text[43:45] --> decoded_text[55:60] '일이' --> ''", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> ''", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> ''", + "replace text[58:59] --> decoded_text[75:80] '빅' --> ''", + "replace text[60:63] --> decoded_text[81:86] '사이닝' --> ''", + "replace text[64:65] --> decoded_text[87:92] '을' --> ''", + "replace text[66:68] --> decoded_text[93:98] '통해' --> ''", + "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> ''", + "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> ''", + "replace text[79:83] --> decoded_text[111:116] '때문이다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": " .", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> ''", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> ''", + "replace text[18:20] --> decoded_text[12:17] '위해' --> ''", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> ''", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> ''", + "replace text[34:36] --> decoded_text[30:35] '주소' --> ''", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> ''" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> ''", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> ''", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> ''", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> ''", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> ''", + "replace text[22:23] --> decoded_text[30:35] '게' --> ''", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> ''", + "replace text[29:31] --> decoded_text[42:47] '법도' --> ''", + "replace text[32:34] --> decoded_text[48:53] '한데' --> ''", + "replace text[36:38] --> decoded_text[55:60] '주소' --> ''", + "replace text[39:40] --> decoded_text[61:66] '둘' --> ''", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> ''", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> ''", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> ''", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> ''", + "replace text[59:61] --> decoded_text[92:97] '마치' --> ''", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> ''", + "replace text[66:67] --> decoded_text[104:109] '한' --> ''", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> ''", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> ''", + "replace text[75:77] --> decoded_text[122:127] '친구' --> ''", + "replace text[78:80] --> decoded_text[128:133] '같은' --> ''", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> ''", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> ''", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> ''" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json index 589ad4b55758df5cda939266e967cf994576593c..9ff005a0d52762780b4efd985ffb8f20ca794e6d 100644 --- a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json @@ -1,157 +1,157 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "招财带什么佛牌(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '卍' --> ''", - "replace text[8:9] --> decoded_text[12:17] '卍' --> ''", - "replace text[57:58] --> decoded_text[65:66] ',' --> ','", - "replace text[95:96] --> decoded_text[103:104] ',' --> ','", - "replace text[113:114] --> decoded_text[121:122] ',' --> ','", - "replace text[136:137] --> decoded_text[144:145] ',' --> ','", - "replace text[148:149] --> decoded_text[156:157] ',' --> ','", - "replace text[168:169] --> decoded_text[176:177] ',' --> ','", - "replace text[183:184] --> decoded_text[191:192] ',' --> ','", - "replace text[213:214] --> decoded_text[221:222] ':' --> ':'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.04672897196261682, - "oov_charset": "[\"卍\", \",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "招财带什么佛牌(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '卍' --> ''", + "replace text[8:9] --> decoded_text[12:17] '卍' --> ''", + "replace text[57:58] --> decoded_text[65:66] ',' --> ','", + "replace text[95:96] --> decoded_text[103:104] ',' --> ','", + "replace text[113:114] --> decoded_text[121:122] ',' --> ','", + "replace text[136:137] --> decoded_text[144:145] ',' --> ','", + "replace text[148:149] --> decoded_text[156:157] ',' --> ','", + "replace text[168:169] --> decoded_text[176:177] ',' --> ','", + "replace text[183:184] --> decoded_text[191:192] ',' --> ','", + "replace text[213:214] --> decoded_text[221:222] ':' --> ':'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04672897196261682, + "oov_charset": "[\"卍\", \",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json index 044739760e37c99a1d108edae638ac1276f4d243..77531264d60e6e521687b6f678701f19170f629b 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", - "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json index a54fd4411a585061beb54f978cf1e633378ab0f9..2999a4d45a02d91f8d66ae6e25fa277dee85487f 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "diff": [ - "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", - "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", - "diff": [ - "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007194244604316547, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "diff": [ - "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005847953216374269, - "oov_charset": "[\"¼\"]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json index 72eec86c45285f3c45ecfe33de13e00128260ad0..df3071b4b9996c68f6797fe6b811d113e02b3d45 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json index 380dd9179a590b6b7413869dc677239e58aa9b03..6e70f83df28c46bfcef6138687538a0bd300d4fd 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", - "diff": [ - "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", - "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", - "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", - "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.030534351145038167, - "oov_charset": "[\"‏\", \"‌\"]" - }, - { - "text": "برچسب‌ها: شیرینی ها", - "decoded_text": "برچسب ها: شیرینی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.05263157894736842, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"‌\"]" - }, - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "برچسب‌ها: توت فرنگی, کیک ها", - "decoded_text": "برچسب ها: توت فرنگی, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.037037037037037035, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: انواع سوپ و اش, جو", - "decoded_text": "برچسب ها: انواع سوپ و اش, جو", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03571428571428571, - "oov_charset": "[\"‌\"]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: شکلات, کیک ها", - "decoded_text": "برچسب ها: شکلات, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"‌\"]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json index 70c1c0795c35a30bf3faa61e7f45b03db2b05262..f508125feaff3095c8d1fbc5a236502b6d67e967 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json index 49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8..4d853773ba7960c544d8888ba1128444db76d0cb 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"!\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023809523809523808, - "oov_charset": "[\"?\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"?\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json index 5d2fa407bbd6b5d68fcde79aae085e45990acc23..ce5511efe8e2017b07ac7dcc09c88a417807f25c 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "언제나 좋은 글 감사합니다ㅡㅡ", - "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", - "diff": [ - "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.125, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "좋은 자료 감사합니다ㅡ0ㅡ", - "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", - "diff": [ - "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", - "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.14285714285714285, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"⁴\"]" - }, - { - "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"¹\"]" - }, - { - "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "diff": [ - "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012048192771084338, - "oov_charset": "[\"…\"]" - }, - { - "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "diff": [ - "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010752688172043012, - "oov_charset": "[\"¹\"]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json index 6755d9364dbcd5976c6bf0e7b19fdafa0e303465..a316a22b3025cdbe5307446b015bc7f586f767a4 100644 --- a/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json @@ -1,155 +1,155 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.037383177570093455, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json index 4a97ff2230823a353878e7cdda083198c81f6093..3a4c24cf62620a737509a66b9ea4c60bef3bdf20 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json index 524966c0fe4f1205f53a0009e400bc35ceb9d4a0..b31fed767a868bc47ca49e85c685bc4dcf70a05f 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "diff": [ - "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "diff": [ - "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", - "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", - "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json index ce357a48e1dd804b8d8cbbff76aa5145142eb848..23b1a8422585081a0b510b8317d4a07e9a1ae544 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json @@ -1,113 +1,113 @@ -[ - { - "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", - "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", - "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", - "diff": [ - "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", - "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", - "diff": [ - "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", - "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", - "diff": [ - "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", - "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", - "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", - "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", - "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "diff": [ - "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", - "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", - "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", - "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "diff": [ - "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", - "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", - "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", - "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", - "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json index 0554a90957042a4d5225801b5924055cf53611a3..75baab06b7c8132f9a4b52ca8bca1383747ad540 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", - "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", - "diff": [ - "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", - "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "diff": [ - "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "diff": [ - "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "diff": [ - "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json index 044739760e37c99a1d108edae638ac1276f4d243..77531264d60e6e521687b6f678701f19170f629b 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", - "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json index a54fd4411a585061beb54f978cf1e633378ab0f9..2999a4d45a02d91f8d66ae6e25fa277dee85487f 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "diff": [ - "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", - "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", - "diff": [ - "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007194244604316547, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "diff": [ - "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005847953216374269, - "oov_charset": "[\"¼\"]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json index 72eec86c45285f3c45ecfe33de13e00128260ad0..df3071b4b9996c68f6797fe6b811d113e02b3d45 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json index 380dd9179a590b6b7413869dc677239e58aa9b03..6e70f83df28c46bfcef6138687538a0bd300d4fd 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", - "diff": [ - "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", - "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", - "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", - "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.030534351145038167, - "oov_charset": "[\"‏\", \"‌\"]" - }, - { - "text": "برچسب‌ها: شیرینی ها", - "decoded_text": "برچسب ها: شیرینی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.05263157894736842, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"‌\"]" - }, - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "برچسب‌ها: توت فرنگی, کیک ها", - "decoded_text": "برچسب ها: توت فرنگی, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.037037037037037035, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: انواع سوپ و اش, جو", - "decoded_text": "برچسب ها: انواع سوپ و اش, جو", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03571428571428571, - "oov_charset": "[\"‌\"]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: شکلات, کیک ها", - "decoded_text": "برچسب ها: شکلات, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"‌\"]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json index 70c1c0795c35a30bf3faa61e7f45b03db2b05262..f508125feaff3095c8d1fbc5a236502b6d67e967 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json index 49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8..4d853773ba7960c544d8888ba1128444db76d0cb 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"!\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023809523809523808, - "oov_charset": "[\"?\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"?\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json index 5d2fa407bbd6b5d68fcde79aae085e45990acc23..ce5511efe8e2017b07ac7dcc09c88a417807f25c 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "언제나 좋은 글 감사합니다ㅡㅡ", - "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", - "diff": [ - "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.125, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "좋은 자료 감사합니다ㅡ0ㅡ", - "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", - "diff": [ - "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", - "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.14285714285714285, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"⁴\"]" - }, - { - "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"¹\"]" - }, - { - "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "diff": [ - "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012048192771084338, - "oov_charset": "[\"…\"]" - }, - { - "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "diff": [ - "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010752688172043012, - "oov_charset": "[\"¹\"]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json index 6755d9364dbcd5976c6bf0e7b19fdafa0e303465..a316a22b3025cdbe5307446b015bc7f586f767a4 100644 --- a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json @@ -1,155 +1,155 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.037383177570093455, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json index 044739760e37c99a1d108edae638ac1276f4d243..77531264d60e6e521687b6f678701f19170f629b 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", - "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json index 346ef60e51451a7fcfd1d66b8194b576febd5e09..629e26e6c5c7f857418b1c3625fae4f322452c80 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "diff": [ - "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "diff": [ - "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", - "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", - "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", - "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", - "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", - "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json index 6e7e33df7d8b83b93e7de01ec45695b92cfc8353..f4e4ecdb515292b758d6286e69b570d824d99d60 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "diff": [ - "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "diff": [ - "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json index 9f0009ec60f4baf997b9a13aa566c6bb9776a5d7..59c1eda8928a616d850d9d89405e0fca8f845f67 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json @@ -1,82 +1,82 @@ -[ - { - "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", - "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", - "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", - "diff": [ - "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", - "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", - "diff": [ - "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", - "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", - "diff": [ - "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", - "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", - "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", - "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", - "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json index 0554a90957042a4d5225801b5924055cf53611a3..75baab06b7c8132f9a4b52ca8bca1383747ad540 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", - "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", - "diff": [ - "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", - "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "diff": [ - "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "diff": [ - "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "diff": [ - "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ar.diff.json b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e78e4a372286263b8cacf7a3e3a27af596d940b2 --- /dev/null +++ b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.de.diff.json b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 --- /dev/null +++ b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.fa.diff.json b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5b91e2d9037ac0d5273684a41a946d6625c4d8df --- /dev/null +++ b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.fr.diff.json b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 --- /dev/null +++ b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ja.diff.json b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d --- /dev/null +++ b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ko.diff.json b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae --- /dev/null +++ b/stats/compression_rate/MiniMaxAI.MiniMax-Text-01 @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json index 3999bf7a929661cbbe3f930fbe537b0f2f4b51f3..f1ccc54a67c7e15ebe2eb5627950634b7e9c2c17 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json @@ -1,116 +1,116 @@ -[ - { - "text": "بما أننا مازلنا منذ تبوأنا عرش أجدادنا وأخذنا على أنفسنا أن نحتفظ بالأمانة التى عهد الله تعالى بها الينا نتطلب الخير دائماً لأمتنا بكل ما فى وسعنا ونتوخى أن نسلك بها السبيل التى نعلم أنها تفضى إلى سعادتها وارتقائها وتمتعها بما تتمتع به الأمم الحرة المتمدينة؛", - "decoded_text": " بما أننا مازلنا منذ تبوأنا عرش أجدادنا وأخذنا على أنفسنا أن نحتفظ بالأمانة التى عهد الله تعالى بها الينا نتطلب الخير دائماً لأمتنا بكل ما فى وسعنا ونتوخى أن نسلك بها السبيل التى نعلم أنها تفضى إلى سعادتها وارتقائها وتمتعها بما تتمتع به الأمم الحرة المتمدينة ⁇ ", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[257:258] --> decoded_text[258:266] '؛' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.003875968992248062, - "oov_charset": "[\"؛\"]" - }, - { - "text": "ولما كان ذلك لا يتم على الوجه الصحيح إلا إذا كان لها نظام دستورى كأحدث الأنظمة الدستورية فى العالم وارقاها تعيش فى ظله عيشاً سعيداً مرضياً وتتمكن به من السير فى طريق الحياة الحرة المطلقة ويكفل لها الاشتراك العملى فى إدارة شئون البلاد والاشراف على وضع قوانينها ومراقبة تنفيذها ويترك فى نفسها شعور الراحة والطمأنينة على حاضرها ومستقبلها مع الاحتفاظ بروحها القومية والإبقاء على صفاتها ومميزاتها التى هى تراثها التاريخى العظيم ؛", - "decoded_text": " ولما كان ذلك لا يتم على الوجه الصحيح إلا إذا كان لها نظام دستورى كأحدث الأنظمة الدستورية فى العالم وارقاها تعيش فى ظله عيشاً سعيداً مرضياً وتتمكن به من السير فى طريق الحياة الحرة المطلقة ويكفل لها الاشتراك العملى فى إدارة شئون البلاد والاشراف على وضع قوانينها ومراقبة تنفيذها ويترك فى نفسها شعور الراحة والطمأنينة على حاضرها ومستقبلها مع الاحتفاظ بروحها القومية والإبقاء على صفاتها ومميزاتها التى هى تراثها التاريخى العظيم ⁇ ", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[423:424] --> decoded_text[424:432] '؛' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0023584905660377358, - "oov_charset": "[\"؛\"]" - }, - { - "text": "وبما أن تحقيق ذلك كان دائماً من أجل رغباتنا ومن أعظم ماتتجه إليه عزائمنا حرصاً على النهوض بشعبنا إلى المنزلة العليا التى يؤهله ذكاؤه واستعداده وتتفق مع عظمته التاريخية القديمة وتسمح له بتبوء المكان اللائق به بين شعوب العالم المتمدين وأممه ؛", - "decoded_text": " وبما أن تحقيق ذلك كان دائماً من أجل رغباتنا ومن أعظم ماتتجه إليه عزائمنا حرصاً على النهوض بشعبنا إلى المنزلة العليا التى يؤهله ذكاؤه واستعداده وتتفق مع عظمته التاريخية القديمة وتسمح له بتبوء المكان اللائق به بين شعوب العالم المتمدين وأممه ⁇ ", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[239:240] --> decoded_text[240:248] '؛' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004166666666666667, - "oov_charset": "[\"؛\"]" - }, - { - "text": "اختصّ الله سبحانه وتعالى شهر رمضان المبارك بين الأشهر بفضائل وخصائص مميزة، فهو شهر الرحمة والغفران والعتق من النيران، شهر القرآن الكريم، الذي يحمل الكثير الكثير من القيم الأخلاقية والاجتماعية والتربوية والإنسانية الراقية، حول خصائص هذا الشهر الفضيل؛ كان لنا هذا الحوار مع سماحة الشيخ عبدالمحسن البقشي:", - "decoded_text": " اختصّ الله سبحانه وتعالى شهر رمضان المبارك بين الأشهر بفضائل وخصائص مميزة، فهو شهر الرحمة والغفران والعتق من النيران، شهر القرآن الكريم، الذي يحمل الكثير الكثير من القيم الأخلاقية والاجتماعية والتربوية والإنسانية الراقية، حول خصائص هذا الشهر الفضيل ⁇ كان لنا هذا الحوار مع سماحة الشيخ عبدالمحسن البقشي:", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[248:249] --> decoded_text[249:257] '؛' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033222591362126247, - "oov_charset": "[\"؛\"]" - }, - { - "text": "أَننا -تاريخياً - جزءٌ (بدرجة ما) من الثقافةِ العربيةِ الإسلامية.", - "decoded_text": " أَننا -تاريخياً - جزء ⁇ (بدرجة ما) من الثقافةِ العربيةِ الإسلامية.", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[21:22] --> decoded_text[22:30] 'ٌ' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"ٌ\"]" - }, - { - "text": "أَننا -جغرافياً- جزءٌ من ثقافةِ شرقِ البحرِ المتوسط.", - "decoded_text": " أَننا -جغرافياً- جزء ⁇ من ثقافةِ شرقِ البحرِ المتوسط.", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[20:21] --> decoded_text[21:29] 'ٌ' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.019230769230769232, - "oov_charset": "[\"ٌ\"]" - }, - { - "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "decoded_text": " أَننا -حالياً- جزء ⁇ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافة ⁇ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[18:19] --> decoded_text[19:27] 'ٌ' --> ' ⁇ '", - "insert text[158:158] --> decoded_text[166:167] '' --> ' '", - "replace text[180:181] --> decoded_text[189:197] 'ٌ' --> ' ⁇ '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.006756756756756757, - "oov_charset": "[\"ٌ\"]" - }, - { - "text": "المفُترض ألا يكون هُناك إنكار لحقيقةِ أننا -تاريخياً- جزءٌ من الثقافةِ العربيةِ، ويَعنى ذَلك أَن مثقفينا والشَخصيات العامة لدينا يفترض فيهم أَن يكونوا أَصحاب إِلمام طيبٍ بالثقافةِ العربية. ولكن الواقعَ يؤكد أن ذلك وإن كان ينطبق على البعض إِلا أَن تعميمه أبعد ما يكون عن الحقيقةِ. إِذ أَن نظرةً مُتفحصة تُظهر ما يلي من حَقائقٍ مؤلمةٍ:", - "decoded_text": " المفُترض ألا يكون هُناك إنكار لحقيقةِ أننا -تاريخياً- جزء ⁇ من الثقافةِ العربيةِ، ويَعنى ذَلك أَن مثقفينا والشَخصيات العامة لدينا يفترض فيهم أَن يكونوا أَصحاب إِلمام طيبٍ بالثقافةِ العربية. ولكن الواقعَ يؤكد أن ذلك وإن كان ينطبق على البعض إِلا أَن تعميمه أبعد ما يكون عن الحقيقةِ. إِذ أَن نظرةً مُتفحصة تُظهر ما يلي من حَقائقٍ مؤلمةٍ:", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[57:58] --> decoded_text[58:66] 'ٌ' --> ' ⁇ '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.003003003003003003, - "oov_charset": "[\"ٌ\"]" - }, - { - "text": "من أكثر المسائل الفكرية والثقافية التي حيرتني ولسنواتٍ طويلة والتي كلما شُغلتُ بها فكرياً وظننت أنني وصلت فيها إلى يقينٍ قاطعٍ جاءت محاوراتٌ ولقاءاتٌ وحواراتٌ وقراءاتٌ ووجهاتُ نظرٍ شخصية لتثبت لي أنني لم أبلغ فيها بعد حد اليقين وأَعنى علاقة العقل العربي بالثقافة التي تُعرف بالثقافة الغربية وما أكثرَ ما حيرتني الطريقةُ التي نتعامل بها مع هذا الموضوع. فهناك كثيرون في واقعنا يظنونَ أن الإيمانَ والاعتدادَ والإعتزاز بثقافتنا الخاصة وهى الثقافة العربية إنما يعني أن نكونَ في موقفِ المعاداةِ أو التحفز أو التوتر تجاه الثقافة الغربية. والبعضُ الآخر يرى أن العصرية ومسايرة الزمن يعنيان معرفة الثقافة الغربية والتفاخر بها، دون اكتراث بالثقافة العربية الإسلامية أو الإسلامية العربية.", - "decoded_text": " من أكثر المسائل الفكرية والثقافية التي حيرتني ولسنواتٍ طويلة والتي كلما شُغلتُ بها فكرياً وظننت أنني وصلت فيها إلى يقينٍ قاطعٍ جاءت محاورات ⁇ ولقاءات ⁇ وحوارات ⁇ وقراءات ⁇ ووجهاتُ نظرٍ شخصية لتثبت لي أنني لم أبلغ فيها بعد حد اليقين وأَعنى علاقة العقل العربي بالثقافة التي تُعرف بالثقافة الغربية وما أكثرَ ما حيرتني الطريقةُ التي نتعامل بها مع هذا الموضوع. فهناك كثيرون في واقعنا يظنونَ أن الإيمانَ والاعتدادَ والإعتزاز بثقافتنا الخاصة وهى الثقافة العربية إنما يعني أن نكونَ في موقفِ المعاداةِ أو التحفز أو التوتر تجاه الثقافة الغربية. والبعضُ الآخر يرى أن العصرية ومسايرة الزمن يعنيان معرفة الثقافة الغربية والتفاخر بها، دون اكتراث بالثقافة العربية الإسلامية أو الإسلامية العربية.", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> ' '", - "replace text[139:140] --> decoded_text[140:149] 'ٌ' --> ' ⁇ '", - "replace text[148:149] --> decoded_text[157:166] 'ٌ' --> ' ⁇ '", - "replace text[157:158] --> decoded_text[174:183] 'ٌ' --> ' ⁇ '", - "replace text[166:167] --> decoded_text[191:199] 'ٌ' --> ' ⁇ '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.005917159763313609, - "oov_charset": "[\"ٌ\"]" - }, - { - "text": "سيارة ام جي‬‎ C 1969 كلاسيكية في دبي", - "decoded_text": "سيارة ام جي‬ C 1969 كلاسيكية في دبي", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] '\\u200e' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.027777777777777776, - "oov_charset": "[\"‎\"]" - } +[ + { + "text": "بما أننا مازلنا منذ تبوأنا عرش أجدادنا وأخذنا على أنفسنا أن نحتفظ بالأمانة التى عهد الله تعالى بها الينا نتطلب الخير دائماً لأمتنا بكل ما فى وسعنا ونتوخى أن نسلك بها السبيل التى نعلم أنها تفضى إلى سعادتها وارتقائها وتمتعها بما تتمتع به الأمم الحرة المتمدينة؛", + "decoded_text": " بما أننا مازلنا منذ تبوأنا عرش أجدادنا وأخذنا على أنفسنا أن نحتفظ بالأمانة التى عهد الله تعالى بها الينا نتطلب الخير دائماً لأمتنا بكل ما فى وسعنا ونتوخى أن نسلك بها السبيل التى نعلم أنها تفضى إلى سعادتها وارتقائها وتمتعها بما تتمتع به الأمم الحرة المتمدينة ⁇ ", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[257:258] --> decoded_text[258:266] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003875968992248062, + "oov_charset": "[\"؛\"]" + }, + { + "text": "ولما كان ذلك لا يتم على الوجه الصحيح إلا إذا كان لها نظام دستورى كأحدث الأنظمة الدستورية فى العالم وارقاها تعيش فى ظله عيشاً سعيداً مرضياً وتتمكن به من السير فى طريق الحياة الحرة المطلقة ويكفل لها الاشتراك العملى فى إدارة شئون البلاد والاشراف على وضع قوانينها ومراقبة تنفيذها ويترك فى نفسها شعور الراحة والطمأنينة على حاضرها ومستقبلها مع الاحتفاظ بروحها القومية والإبقاء على صفاتها ومميزاتها التى هى تراثها التاريخى العظيم ؛", + "decoded_text": " ولما كان ذلك لا يتم على الوجه الصحيح إلا إذا كان لها نظام دستورى كأحدث الأنظمة الدستورية فى العالم وارقاها تعيش فى ظله عيشاً سعيداً مرضياً وتتمكن به من السير فى طريق الحياة الحرة المطلقة ويكفل لها الاشتراك العملى فى إدارة شئون البلاد والاشراف على وضع قوانينها ومراقبة تنفيذها ويترك فى نفسها شعور الراحة والطمأنينة على حاضرها ومستقبلها مع الاحتفاظ بروحها القومية والإبقاء على صفاتها ومميزاتها التى هى تراثها التاريخى العظيم ⁇ ", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[423:424] --> decoded_text[424:432] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0023584905660377358, + "oov_charset": "[\"؛\"]" + }, + { + "text": "وبما أن تحقيق ذلك كان دائماً من أجل رغباتنا ومن أعظم ماتتجه إليه عزائمنا حرصاً على النهوض بشعبنا إلى المنزلة العليا التى يؤهله ذكاؤه واستعداده وتتفق مع عظمته التاريخية القديمة وتسمح له بتبوء المكان اللائق به بين شعوب العالم المتمدين وأممه ؛", + "decoded_text": " وبما أن تحقيق ذلك كان دائماً من أجل رغباتنا ومن أعظم ماتتجه إليه عزائمنا حرصاً على النهوض بشعبنا إلى المنزلة العليا التى يؤهله ذكاؤه واستعداده وتتفق مع عظمته التاريخية القديمة وتسمح له بتبوء المكان اللائق به بين شعوب العالم المتمدين وأممه ⁇ ", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[239:240] --> decoded_text[240:248] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004166666666666667, + "oov_charset": "[\"؛\"]" + }, + { + "text": "اختصّ الله سبحانه وتعالى شهر رمضان المبارك بين الأشهر بفضائل وخصائص مميزة، فهو شهر الرحمة والغفران والعتق من النيران، شهر القرآن الكريم، الذي يحمل الكثير الكثير من القيم الأخلاقية والاجتماعية والتربوية والإنسانية الراقية، حول خصائص هذا الشهر الفضيل؛ كان لنا هذا الحوار مع سماحة الشيخ عبدالمحسن البقشي:", + "decoded_text": " اختصّ الله سبحانه وتعالى شهر رمضان المبارك بين الأشهر بفضائل وخصائص مميزة، فهو شهر الرحمة والغفران والعتق من النيران، شهر القرآن الكريم، الذي يحمل الكثير الكثير من القيم الأخلاقية والاجتماعية والتربوية والإنسانية الراقية، حول خصائص هذا الشهر الفضيل ⁇ كان لنا هذا الحوار مع سماحة الشيخ عبدالمحسن البقشي:", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[248:249] --> decoded_text[249:257] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033222591362126247, + "oov_charset": "[\"؛\"]" + }, + { + "text": "أَننا -تاريخياً - جزءٌ (بدرجة ما) من الثقافةِ العربيةِ الإسلامية.", + "decoded_text": " أَننا -تاريخياً - جزء ⁇ (بدرجة ما) من الثقافةِ العربيةِ الإسلامية.", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[21:22] --> decoded_text[22:30] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "أَننا -جغرافياً- جزءٌ من ثقافةِ شرقِ البحرِ المتوسط.", + "decoded_text": " أَننا -جغرافياً- جزء ⁇ من ثقافةِ شرقِ البحرِ المتوسط.", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[20:21] --> decoded_text[21:29] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.019230769230769232, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": " أَننا -حالياً- جزء ⁇ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافة ⁇ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[18:19] --> decoded_text[19:27] 'ٌ' --> ' ⁇ '", + "insert text[158:158] --> decoded_text[166:167] '' --> ' '", + "replace text[180:181] --> decoded_text[189:197] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.006756756756756757, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "المفُترض ألا يكون هُناك إنكار لحقيقةِ أننا -تاريخياً- جزءٌ من الثقافةِ العربيةِ، ويَعنى ذَلك أَن مثقفينا والشَخصيات العامة لدينا يفترض فيهم أَن يكونوا أَصحاب إِلمام طيبٍ بالثقافةِ العربية. ولكن الواقعَ يؤكد أن ذلك وإن كان ينطبق على البعض إِلا أَن تعميمه أبعد ما يكون عن الحقيقةِ. إِذ أَن نظرةً مُتفحصة تُظهر ما يلي من حَقائقٍ مؤلمةٍ:", + "decoded_text": " المفُترض ألا يكون هُناك إنكار لحقيقةِ أننا -تاريخياً- جزء ⁇ من الثقافةِ العربيةِ، ويَعنى ذَلك أَن مثقفينا والشَخصيات العامة لدينا يفترض فيهم أَن يكونوا أَصحاب إِلمام طيبٍ بالثقافةِ العربية. ولكن الواقعَ يؤكد أن ذلك وإن كان ينطبق على البعض إِلا أَن تعميمه أبعد ما يكون عن الحقيقةِ. إِذ أَن نظرةً مُتفحصة تُظهر ما يلي من حَقائقٍ مؤلمةٍ:", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[57:58] --> decoded_text[58:66] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003003003003003003, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "من أكثر المسائل الفكرية والثقافية التي حيرتني ولسنواتٍ طويلة والتي كلما شُغلتُ بها فكرياً وظننت أنني وصلت فيها إلى يقينٍ قاطعٍ جاءت محاوراتٌ ولقاءاتٌ وحواراتٌ وقراءاتٌ ووجهاتُ نظرٍ شخصية لتثبت لي أنني لم أبلغ فيها بعد حد اليقين وأَعنى علاقة العقل العربي بالثقافة التي تُعرف بالثقافة الغربية وما أكثرَ ما حيرتني الطريقةُ التي نتعامل بها مع هذا الموضوع. فهناك كثيرون في واقعنا يظنونَ أن الإيمانَ والاعتدادَ والإعتزاز بثقافتنا الخاصة وهى الثقافة العربية إنما يعني أن نكونَ في موقفِ المعاداةِ أو التحفز أو التوتر تجاه الثقافة الغربية. والبعضُ الآخر يرى أن العصرية ومسايرة الزمن يعنيان معرفة الثقافة الغربية والتفاخر بها، دون اكتراث بالثقافة العربية الإسلامية أو الإسلامية العربية.", + "decoded_text": " من أكثر المسائل الفكرية والثقافية التي حيرتني ولسنواتٍ طويلة والتي كلما شُغلتُ بها فكرياً وظننت أنني وصلت فيها إلى يقينٍ قاطعٍ جاءت محاورات ⁇ ولقاءات ⁇ وحوارات ⁇ وقراءات ⁇ ووجهاتُ نظرٍ شخصية لتثبت لي أنني لم أبلغ فيها بعد حد اليقين وأَعنى علاقة العقل العربي بالثقافة التي تُعرف بالثقافة الغربية وما أكثرَ ما حيرتني الطريقةُ التي نتعامل بها مع هذا الموضوع. فهناك كثيرون في واقعنا يظنونَ أن الإيمانَ والاعتدادَ والإعتزاز بثقافتنا الخاصة وهى الثقافة العربية إنما يعني أن نكونَ في موقفِ المعاداةِ أو التحفز أو التوتر تجاه الثقافة الغربية. والبعضُ الآخر يرى أن العصرية ومسايرة الزمن يعنيان معرفة الثقافة الغربية والتفاخر بها، دون اكتراث بالثقافة العربية الإسلامية أو الإسلامية العربية.", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[139:140] --> decoded_text[140:149] 'ٌ' --> ' ⁇ '", + "replace text[148:149] --> decoded_text[157:166] 'ٌ' --> ' ⁇ '", + "replace text[157:158] --> decoded_text[174:183] 'ٌ' --> ' ⁇ '", + "replace text[166:167] --> decoded_text[191:199] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.005917159763313609, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "سيارة ام جي‬‎ C 1969 كلاسيكية في دبي", + "decoded_text": "سيارة ام جي‬ C 1969 كلاسيكية في دبي", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] '\\u200e' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.027777777777777776, + "oov_charset": "[\"‎\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json index 734a27be6b7b5b7e223e1b3a4c38f83add33ae21..caeb015b44b1e5ab27606c8673a82b62e6cc7ff6 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": " EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": " Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", - "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", - "diff": [ - "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"…\"]" - }, - { - "text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies… with sprinkles, of course.", - "decoded_text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies... with sprinkles, of course.", - "diff": [ - "replace text[345:346] --> decoded_text[345:348] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002680965147453083, - "oov_charset": "[\"…\"]" - }, - { - "text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them… love the library!", - "decoded_text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them... love the library!", - "diff": [ - "replace text[96:97] --> decoded_text[96:99] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008695652173913044, - "oov_charset": "[\"…\"]" - }, - { - "text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it…every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", - "decoded_text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it...every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", - "diff": [ - "replace text[228:229] --> decoded_text[228:231] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.003115264797507788, - "oov_charset": "[\"…\"]" - }, - { - "text": "So, with your theme, we just use the default search widget? Or…do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", - "decoded_text": "So, with your theme, we just use the default search widget? Or...do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", - "diff": [ - "replace text[62:63] --> decoded_text[62:65] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004878048780487805, - "oov_charset": "[\"…\"]" - }, - { - "text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example … And i dont understand why", - "decoded_text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example ... And i dont understand why", - "diff": [ - "replace text[113:114] --> decoded_text[113:116] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007142857142857143, - "oov_charset": "[\"…\"]" - }, - { - "text": "“It Only Happens Once…Yesterday and Tomorrow”", - "decoded_text": "“It Only Happens Once...Yesterday and Tomorrow”", - "diff": [ - "replace text[21:22] --> decoded_text[21:24] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"…\"]" - }, - { - "text": "Get off the subway at Awaza Station and take exit ⑦, ⑧ or ⑩", - "decoded_text": "Get off the subway at Awaza Station and take exit 7, 8 or 10", - "diff": [ - "replace text[50:51] --> decoded_text[50:51] '⑦' --> '7'", - "replace text[53:54] --> decoded_text[53:54] '⑧' --> '8'", - "replace text[58:59] --> decoded_text[58:60] '⑩' --> '10'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.05084745762711865, - "oov_charset": "[\"⑦\", \"⑧\", \"⑩\"]" - } +[ + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": " EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": " Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + }, + { + "text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies… with sprinkles, of course.", + "decoded_text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies... with sprinkles, of course.", + "diff": [ + "replace text[345:346] --> decoded_text[345:348] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002680965147453083, + "oov_charset": "[\"…\"]" + }, + { + "text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them… love the library!", + "decoded_text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them... love the library!", + "diff": [ + "replace text[96:97] --> decoded_text[96:99] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"…\"]" + }, + { + "text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it…every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "decoded_text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it...every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "diff": [ + "replace text[228:229] --> decoded_text[228:231] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003115264797507788, + "oov_charset": "[\"…\"]" + }, + { + "text": "So, with your theme, we just use the default search widget? Or…do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "decoded_text": "So, with your theme, we just use the default search widget? Or...do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "diff": [ + "replace text[62:63] --> decoded_text[62:65] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004878048780487805, + "oov_charset": "[\"…\"]" + }, + { + "text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example … And i dont understand why", + "decoded_text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example ... And i dont understand why", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"…\"]" + }, + { + "text": "“It Only Happens Once…Yesterday and Tomorrow”", + "decoded_text": "“It Only Happens Once...Yesterday and Tomorrow”", + "diff": [ + "replace text[21:22] --> decoded_text[21:24] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"…\"]" + }, + { + "text": "Get off the subway at Awaza Station and take exit ⑦, ⑧ or ⑩", + "decoded_text": "Get off the subway at Awaza Station and take exit 7, 8 or 10", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] '⑦' --> '7'", + "replace text[53:54] --> decoded_text[53:54] '⑧' --> '8'", + "replace text[58:59] --> decoded_text[58:60] '⑩' --> '10'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05084745762711865, + "oov_charset": "[\"⑦\", \"⑧\", \"⑩\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json index 1a3f2b61f31a574da12d8b5f9754be17fac11c68..2bc9e0b61b6c417e43c94f6b3c98be21eb5c5f27 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l´Ebre (donde nos han tratado de maravilla)...", - "decoded_text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l ́Ebre (donde nos han tratado de maravilla)...", - "diff": [ - "replace text[403:404] --> decoded_text[403:405] '´' --> ' ́'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002232142857142857, - "oov_charset": "[\"´\"]" - }, - { - "text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior…”", - "decoded_text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior...”", - "diff": [ - "replace text[111:112] --> decoded_text[111:114] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008849557522123894, - "oov_charset": "[\"…\"]" - }, - { - "text": "Y ya una vez realmente en Japón… lo primero que hice fue ir a:", - "decoded_text": "Y ya una vez realmente en Japón... lo primero que hice fue ir a:", - "diff": [ - "replace text[31:32] --> decoded_text[31:34] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "Una vez cumplida esta mision, la siguiente parada era…", - "decoded_text": "Una vez cumplida esta mision, la siguiente parada era...", - "diff": [ - "replace text[53:54] --> decoded_text[53:56] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.018518518518518517, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l´Ebre (donde nos han tratado de maravilla)...", + "decoded_text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l ́Ebre (donde nos han tratado de maravilla)...", + "diff": [ + "replace text[403:404] --> decoded_text[403:405] '´' --> ' ́'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002232142857142857, + "oov_charset": "[\"´\"]" + }, + { + "text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior…”", + "decoded_text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior...”", + "diff": [ + "replace text[111:112] --> decoded_text[111:114] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008849557522123894, + "oov_charset": "[\"…\"]" + }, + { + "text": "Y ya una vez realmente en Japón… lo primero que hice fue ir a:", + "decoded_text": "Y ya una vez realmente en Japón... lo primero que hice fue ir a:", + "diff": [ + "replace text[31:32] --> decoded_text[31:34] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "Una vez cumplida esta mision, la siguiente parada era…", + "decoded_text": "Una vez cumplida esta mision, la siguiente parada era...", + "diff": [ + "replace text[53:54] --> decoded_text[53:56] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json index 6575166dde9adf51b06cd0709e680f15a45930ca..56059cbd09fbf8b07a37df7fb5baf42bc5eb77df 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", - "diff": [ - "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", - "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", - "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", - "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.030534351145038167, - "oov_charset": "[\"‏\", \"‌\"]" - }, - { - "text": "برچسب‌ها: شیرینی ها", - "decoded_text": "برچسب ها: شیرینی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.05263157894736842, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: توت فرنگی, کیک ها", - "decoded_text": "برچسب ها: توت فرنگی, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.037037037037037035, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: انواع سوپ و اش, جو", - "decoded_text": "برچسب ها: انواع سوپ و اش, جو", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03571428571428571, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: شکلات, کیک ها", - "decoded_text": "برچسب ها: شکلات, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: انواع سوپ و اش, تره فرنگی", - "decoded_text": "برچسب ها: انواع سوپ و اش, تره فرنگی", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02857142857142857, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: کوکی ها", - "decoded_text": "برچسب ها: کوکی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: دسرها, موز", - "decoded_text": "برچسب ها: دسرها, موز", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.05, - "oov_charset": "[\"‌\"]" - } +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, تره فرنگی", + "decoded_text": "برچسب ها: انواع سوپ و اش, تره فرنگی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02857142857142857, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: کوکی ها", + "decoded_text": "برچسب ها: کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: دسرها, موز", + "decoded_text": "برچسب ها: دسرها, موز", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05, + "oov_charset": "[\"‌\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json index 9fc4cd663063f7d6ad89a9531b77cced3103d291..84be4e3fa8868e40e7a3e59b6251515b67349991 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un plat, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un plat, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[32:33] --> decoded_text[32:35] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01694915254237288, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un gâteau, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un gâteau, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un bonbon, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un bonbon, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une boisson, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une boisson, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu n’avais qu’un album a garder, ce serait… Insérez votre réponse ici", - "decoded_text": "- Si tu n’avais qu’un album a garder, ce serait... Insérez votre réponse ici", - "diff": [ - "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu n’avais qu’un livre à garder, ce serait… Insérez votre réponse ici", - "decoded_text": "- Si tu n’avais qu’un livre à garder, ce serait... Insérez votre réponse ici", - "diff": [ - "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un style de musique… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un style de musique... Insérez votre réponse ici", - "diff": [ - "replace text[33:34] --> decoded_text[33:36] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un plat, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un plat, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[32:33] --> decoded_text[32:35] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01694915254237288, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un gâteau, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un gâteau, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un bonbon, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un bonbon, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une boisson, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une boisson, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un album a garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un album a garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un livre à garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un livre à garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un style de musique… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un style de musique... Insérez votre réponse ici", + "diff": [ + "replace text[33:34] --> decoded_text[33:36] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json index 44ad15a217ed4110ed775cda8c205fff7a9ced50..8130815495ca417f29f1a7f1f2e78b9b8bf8d6ba 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json @@ -1,108 +1,108 @@ -[ - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", - "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '", - "replace text[36:37] --> decoded_text[36:37] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\" \", \"1\"]" - }, - { - "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", - "decoded_text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく......世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'M' --> 'M'", - "replace text[44:46] --> decoded_text[44:50] '……' --> '......'", - "replace text[73:74] --> decoded_text[77:78] 'T' --> 'T'", - "replace text[105:106] --> decoded_text[109:110] 'M' --> 'M'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.033783783783783786, - "oov_charset": "[\"M\", \"…\", \"T\"]" - }, - { - "text": "今回、12月に赴いた際は、食事中、スタッフが入れ替わり挨拶に来てくれたばかりか、帰り際には、店長を含む4名が外に出て、寒風のなか、いつまでも私の運転する車を見送ってくれた。", - "decoded_text": "今回、12月に赴いた際は、食事中、スタッフが入れ替わり挨拶に来てくれたばかりか、帰り際には、店長を含む4名が外に出て、寒風のなか、いつまでも私の運転する車を見送ってくれた。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] '4' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011627906976744186, - "oov_charset": "[\"4\"]" - }, - { - "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", - "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] '1' --> '1'", - "replace text[38:39] --> decoded_text[38:39] '\\u3000' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.05128205128205128, - "oov_charset": "[\"1\", \" \"]" - } +[ + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '", + "replace text[36:37] --> decoded_text[36:37] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\" \", \"1\"]" + }, + { + "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "decoded_text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく......世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'M' --> 'M'", + "replace text[44:46] --> decoded_text[44:50] '……' --> '......'", + "replace text[73:74] --> decoded_text[77:78] 'T' --> 'T'", + "replace text[105:106] --> decoded_text[109:110] 'M' --> 'M'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.033783783783783786, + "oov_charset": "[\"M\", \"…\", \"T\"]" + }, + { + "text": "今回、12月に赴いた際は、食事中、スタッフが入れ替わり挨拶に来てくれたばかりか、帰り際には、店長を含む4名が外に出て、寒風のなか、いつまでも私の運転する車を見送ってくれた。", + "decoded_text": "今回、12月に赴いた際は、食事中、スタッフが入れ替わり挨拶に来てくれたばかりか、帰り際には、店長を含む4名が外に出て、寒風のなか、いつまでも私の運転する車を見送ってくれた。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] '4' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011627906976744186, + "oov_charset": "[\"4\"]" + }, + { + "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] '1' --> '1'", + "replace text[38:39] --> decoded_text[38:39] '\\u3000' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\"1\", \" \"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json index ab8047c39376b118557522a889b9e2c40838e978..47db9598b3a1eb88799614bd26df57a4390e3c41 100644 --- a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "언제나 좋은 글 감사합니다ㅡㅡ", - "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", - "diff": [ - "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.125, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "좋은 자료 감사합니다ㅡ0ㅡ", - "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", - "diff": [ - "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", - "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.14285714285714285, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"⁴\"]" - }, - { - "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"¹\"]" - }, - { - "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "diff": [ - "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012048192771084338, - "oov_charset": "[\"…\"]" - }, - { - "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "diff": [ - "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010752688172043012, - "oov_charset": "[\"¹\"]" - }, - { - "text": "*²릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", - "decoded_text": "*2릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '²' --> '2'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011494252873563218, - "oov_charset": "[\"²\"]" - }, - { - "text": "좋은 정보 감사합니다ㅡㅡ", - "decoded_text": "좋은 정보 감사합니다ᅳᅳ", - "diff": [ - "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.15384615384615385, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "좋은 정보 감사합니다ㅡㅡ", - "decoded_text": "좋은 정보 감사합니다ᅳᅳ", - "diff": [ - "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.15384615384615385, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ㆍ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", - "decoded_text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ᆞ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", - "diff": [ - "replace text[53:54] --> decoded_text[53:54] 'ㆍ' --> 'ᆞ'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008333333333333333, - "oov_charset": "[\"ㆍ\"]" - } +[ + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + }, + { + "text": "*²릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "decoded_text": "*2릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '²' --> '2'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"²\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ㆍ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "decoded_text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ᆞ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "diff": [ + "replace text[53:54] --> decoded_text[53:54] 'ㆍ' --> 'ᆞ'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008333333333333333, + "oov_charset": "[\"ㆍ\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json index afddff48cb85b79722184fb31edc0a9776f9a138..e78e4a372286263b8cacf7a3e3a27af596d940b2 100644 --- a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json @@ -1,117 +1,117 @@ -[ - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "diff": [ - "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", - "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", - "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", - "diff": [ - "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", - "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", - "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", - "diff": [ - "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", - "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", - "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", - "diff": [ - "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", - "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", - "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", - "diff": [ - "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", - "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", - "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", - "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", - "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", - "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", - "diff": [ - "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", - "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", - "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", - "diff": [ - "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", - "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", - "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", - "diff": [ - "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", - "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", - "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", - "diff": [ - "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", - "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json index b356eb099f9de259c5aebf1fa4b59e377a566c6d..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 100644 --- a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "diff": [ - "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", - "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "diff": [ - "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", - "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", - "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", - "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", - "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", - "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", - "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", - "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", - "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", - "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "diff": [ - "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", - "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "diff": [ - "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", - "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", - "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", - "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", - "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", - "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "‹ Herzlichen Dank für all Ihre Spenden!", - "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", - "diff": [ - "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "diff": [ - "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", - "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json index d371e1254d59c2702dbfb5ef2dc5f34281c3c85b..5b91e2d9037ac0d5273684a41a946d6625c4d8df 100644 --- a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json @@ -1,145 +1,145 @@ -[ - { - "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "diff": [ - "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", - "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", - "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", - "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", - "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", - "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "diff": [ - "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", - "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", - "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", - "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "diff": [ - "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", - "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", - "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", - "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", - "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", - "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", - "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", - "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "diff": [ - "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", - "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", - "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", - "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", - "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", - "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "diff": [ - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "diff": [ - "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", - "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", - "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", - "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", - "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", - "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", - "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", - "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "diff": [ - "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", - "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", - "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", - "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", - "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", - "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", - "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "diff": [ - "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", - "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", - "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", - "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "diff": [ - "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", - "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", - "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", - "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", - "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", - "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "diff": [ - "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", - "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json index 84810923145e0dfdcad164d644658e65b932e61a..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 100644 --- a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "diff": [ - "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", - "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", - "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", - "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", - "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", - "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "diff": [ - "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", - "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", - "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "diff": [ - "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", - "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "diff": [ - "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", - "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", - "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", - "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "diff": [ - "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", - "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", - "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "diff": [ - "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", - "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", - "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", - "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", - "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", - "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "diff": [ - "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", - "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json index 0982b3168d4918ce5cdc346cafda92fea500ca90..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae 100644 --- a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "diff": [ - "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006211180124223602, - "oov_charset": "[\"樂\"]" - }, - { - "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "diff": [ - "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", - "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.004784688995215311, - "oov_charset": "[\"樂\", \"累\"]" - }, - { - "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "diff": [ - "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007936507936507936, - "oov_charset": "[\"陸\"]" - }, - { - "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "diff": [ - "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007692307692307693, - "oov_charset": "[\"良\"]" - }, - { - "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "diff": [ - "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"理\"]" - }, - { - "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "diff": [ - "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004629629629629629, - "oov_charset": "[\"樂\"]" - }, - { - "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007874015748031496, - "oov_charset": "[\"立\"]" - }, - { - "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", - "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", - "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.023622047244094488, - "oov_charset": "[\"金\"]" - }, - { - "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017543859649122806, - "oov_charset": "[\"梁\"]" - }, - { - "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"樂\"]" - } +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json index b356eb099f9de259c5aebf1fa4b59e377a566c6d..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "diff": [ - "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", - "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "diff": [ - "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", - "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", - "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", - "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", - "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", - "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", - "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", - "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", - "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", - "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "diff": [ - "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", - "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "diff": [ - "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", - "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", - "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", - "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", - "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", - "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "‹ Herzlichen Dank für all Ihre Spenden!", - "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", - "diff": [ - "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "diff": [ - "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", - "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json index d371e1254d59c2702dbfb5ef2dc5f34281c3c85b..5b91e2d9037ac0d5273684a41a946d6625c4d8df 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json @@ -1,145 +1,145 @@ -[ - { - "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "diff": [ - "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", - "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", - "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", - "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", - "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", - "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "diff": [ - "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", - "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", - "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", - "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "diff": [ - "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", - "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", - "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", - "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", - "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", - "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", - "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", - "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "diff": [ - "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", - "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", - "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", - "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", - "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", - "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "diff": [ - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "diff": [ - "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", - "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", - "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", - "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", - "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", - "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", - "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", - "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "diff": [ - "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", - "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", - "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", - "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", - "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", - "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", - "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "diff": [ - "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", - "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", - "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", - "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "diff": [ - "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", - "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", - "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", - "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", - "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", - "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "diff": [ - "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", - "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json index 84810923145e0dfdcad164d644658e65b932e61a..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "diff": [ - "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", - "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", - "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", - "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", - "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", - "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "diff": [ - "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", - "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", - "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "diff": [ - "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", - "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "diff": [ - "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", - "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", - "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", - "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "diff": [ - "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", - "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", - "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "diff": [ - "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", - "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", - "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", - "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", - "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", - "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "diff": [ - "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", - "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json index c7fcabce90df2e5122f9238725e9dc9e64e6fe41..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json @@ -1,142 +1,142 @@ -[ - { - "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "diff": [ - "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", - "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", - "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", - "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "diff": [ - "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", - "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", - "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", - "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", - "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", - "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", - "diff": [ - "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", - "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", - "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", - "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", - "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", - "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", - "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", - "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", - "diff": [ - "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", - "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", - "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", - "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", - "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", - "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", - "diff": [ - "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", - "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", - "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", - "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", - "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", - "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", - "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", - "diff": [ - "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", - "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", - "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", - "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", - "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", - "diff": [ - "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", - "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", - "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", - "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", - "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", - "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", - "diff": [ - "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", - "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", - "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", - "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", - "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", - "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", - "diff": [ - "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", - "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json index 0982b3168d4918ce5cdc346cafda92fea500ca90..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "diff": [ - "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006211180124223602, - "oov_charset": "[\"樂\"]" - }, - { - "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "diff": [ - "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", - "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.004784688995215311, - "oov_charset": "[\"樂\", \"累\"]" - }, - { - "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "diff": [ - "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007936507936507936, - "oov_charset": "[\"陸\"]" - }, - { - "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "diff": [ - "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007692307692307693, - "oov_charset": "[\"良\"]" - }, - { - "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "diff": [ - "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"理\"]" - }, - { - "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "diff": [ - "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004629629629629629, - "oov_charset": "[\"樂\"]" - }, - { - "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007874015748031496, - "oov_charset": "[\"立\"]" - }, - { - "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", - "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", - "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.023622047244094488, - "oov_charset": "[\"金\"]" - }, - { - "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017543859649122806, - "oov_charset": "[\"梁\"]" - }, - { - "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"樂\"]" - } +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json index afddff48cb85b79722184fb31edc0a9776f9a138..e78e4a372286263b8cacf7a3e3a27af596d940b2 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json @@ -1,117 +1,117 @@ -[ - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "diff": [ - "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", - "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", - "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", - "diff": [ - "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", - "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", - "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", - "diff": [ - "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", - "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", - "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", - "diff": [ - "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", - "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", - "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", - "diff": [ - "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", - "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", - "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", - "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", - "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", - "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", - "diff": [ - "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", - "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", - "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", - "diff": [ - "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", - "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", - "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", - "diff": [ - "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", - "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", - "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", - "diff": [ - "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", - "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json index b356eb099f9de259c5aebf1fa4b59e377a566c6d..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "diff": [ - "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", - "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "diff": [ - "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", - "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", - "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", - "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", - "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", - "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", - "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", - "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", - "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", - "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "diff": [ - "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", - "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "diff": [ - "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", - "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", - "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", - "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", - "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", - "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "‹ Herzlichen Dank für all Ihre Spenden!", - "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", - "diff": [ - "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "diff": [ - "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", - "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json index d371e1254d59c2702dbfb5ef2dc5f34281c3c85b..5b91e2d9037ac0d5273684a41a946d6625c4d8df 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json @@ -1,145 +1,145 @@ -[ - { - "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "diff": [ - "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", - "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", - "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", - "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", - "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", - "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "diff": [ - "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", - "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", - "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", - "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "diff": [ - "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", - "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", - "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", - "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", - "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", - "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", - "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", - "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "diff": [ - "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", - "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", - "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", - "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", - "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", - "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "diff": [ - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "diff": [ - "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", - "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", - "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", - "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", - "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", - "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", - "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", - "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "diff": [ - "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", - "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", - "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", - "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", - "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", - "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", - "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "diff": [ - "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", - "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", - "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", - "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "diff": [ - "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", - "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", - "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", - "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", - "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", - "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "diff": [ - "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", - "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json index 84810923145e0dfdcad164d644658e65b932e61a..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "diff": [ - "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", - "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", - "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", - "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", - "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", - "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "diff": [ - "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", - "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", - "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "diff": [ - "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", - "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "diff": [ - "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", - "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", - "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", - "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "diff": [ - "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", - "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", - "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "diff": [ - "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", - "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", - "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", - "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", - "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", - "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "diff": [ - "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", - "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json index c7fcabce90df2e5122f9238725e9dc9e64e6fe41..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json @@ -1,142 +1,142 @@ -[ - { - "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "diff": [ - "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", - "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", - "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", - "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "diff": [ - "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", - "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", - "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", - "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", - "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", - "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", - "diff": [ - "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", - "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", - "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", - "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", - "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", - "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", - "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", - "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", - "diff": [ - "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", - "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", - "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", - "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", - "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", - "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", - "diff": [ - "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", - "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", - "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", - "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", - "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", - "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", - "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", - "diff": [ - "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", - "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", - "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", - "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", - "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", - "diff": [ - "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", - "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", - "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", - "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", - "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", - "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", - "diff": [ - "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", - "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", - "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", - "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", - "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", - "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", - "diff": [ - "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", - "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json index 0982b3168d4918ce5cdc346cafda92fea500ca90..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "diff": [ - "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006211180124223602, - "oov_charset": "[\"樂\"]" - }, - { - "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "diff": [ - "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", - "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.004784688995215311, - "oov_charset": "[\"樂\", \"累\"]" - }, - { - "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "diff": [ - "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007936507936507936, - "oov_charset": "[\"陸\"]" - }, - { - "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "diff": [ - "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007692307692307693, - "oov_charset": "[\"良\"]" - }, - { - "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "diff": [ - "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"理\"]" - }, - { - "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "diff": [ - "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004629629629629629, - "oov_charset": "[\"樂\"]" - }, - { - "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007874015748031496, - "oov_charset": "[\"立\"]" - }, - { - "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", - "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", - "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.023622047244094488, - "oov_charset": "[\"金\"]" - }, - { - "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017543859649122806, - "oov_charset": "[\"梁\"]" - }, - { - "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"樂\"]" - } +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json index afddff48cb85b79722184fb31edc0a9776f9a138..e78e4a372286263b8cacf7a3e3a27af596d940b2 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json @@ -1,117 +1,117 @@ -[ - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", - "diff": [ - "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", - "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", - "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", - "diff": [ - "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", - "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", - "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", - "diff": [ - "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", - "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", - "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", - "diff": [ - "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", - "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", - "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", - "diff": [ - "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", - "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", - "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", - "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", - "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", - "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", - "diff": [ - "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", - "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", - "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", - "diff": [ - "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", - "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", - "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", - "diff": [ - "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", - "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", - "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", - "diff": [ - "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", - "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json index b356eb099f9de259c5aebf1fa4b59e377a566c6d..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", - "diff": [ - "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", - "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", - "diff": [ - "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", - "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", - "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", - "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", - "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", - "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", - "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", - "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", - "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", - "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", - "diff": [ - "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", - "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", - "diff": [ - "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", - "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", - "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", - "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", - "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", - "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "‹ Herzlichen Dank für all Ihre Spenden!", - "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", - "diff": [ - "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", - "diff": [ - "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", - "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json index d371e1254d59c2702dbfb5ef2dc5f34281c3c85b..5b91e2d9037ac0d5273684a41a946d6625c4d8df 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json @@ -1,145 +1,145 @@ -[ - { - "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", - "diff": [ - "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", - "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", - "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", - "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", - "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", - "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", - "diff": [ - "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", - "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", - "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", - "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", - "diff": [ - "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", - "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", - "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", - "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", - "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", - "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", - "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", - "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", - "diff": [ - "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", - "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", - "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", - "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", - "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", - "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", - "diff": [ - "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", - "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", - "diff": [ - "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", - "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", - "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", - "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", - "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", - "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", - "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", - "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", - "diff": [ - "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", - "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", - "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", - "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", - "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", - "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", - "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", - "diff": [ - "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", - "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", - "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", - "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", - "diff": [ - "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", - "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", - "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", - "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", - "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", - "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", - "diff": [ - "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", - "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json index 84810923145e0dfdcad164d644658e65b932e61a..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", - "diff": [ - "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", - "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", - "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", - "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", - "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", - "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", - "diff": [ - "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", - "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", - "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", - "diff": [ - "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", - "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", - "diff": [ - "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", - "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", - "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", - "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", - "diff": [ - "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", - "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", - "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", - "diff": [ - "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", - "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", - "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", - "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", - "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", - "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", - "diff": [ - "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", - "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", - "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json index c7fcabce90df2e5122f9238725e9dc9e64e6fe41..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json @@ -1,142 +1,142 @@ -[ - { - "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "diff": [ - "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", - "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", - "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", - "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "diff": [ - "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", - "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", - "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", - "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", - "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", - "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", - "diff": [ - "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", - "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", - "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", - "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", - "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", - "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", - "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", - "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", - "diff": [ - "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", - "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", - "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", - "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", - "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", - "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", - "diff": [ - "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", - "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", - "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", - "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", - "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", - "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", - "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", - "diff": [ - "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", - "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", - "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", - "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", - "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", - "diff": [ - "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", - "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", - "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", - "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", - "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", - "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", - "diff": [ - "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", - "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", - "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", - "diff": [ - "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", - "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", - "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", - "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", - "diff": [ - "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", - "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json index 0982b3168d4918ce5cdc346cafda92fea500ca90..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae 100644 --- a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", - "diff": [ - "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006211180124223602, - "oov_charset": "[\"樂\"]" - }, - { - "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", - "diff": [ - "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", - "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.004784688995215311, - "oov_charset": "[\"樂\", \"累\"]" - }, - { - "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", - "diff": [ - "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007936507936507936, - "oov_charset": "[\"陸\"]" - }, - { - "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", - "diff": [ - "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007692307692307693, - "oov_charset": "[\"良\"]" - }, - { - "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", - "diff": [ - "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"理\"]" - }, - { - "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", - "diff": [ - "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004629629629629629, - "oov_charset": "[\"樂\"]" - }, - { - "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007874015748031496, - "oov_charset": "[\"立\"]" - }, - { - "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", - "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", - "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.023622047244094488, - "oov_charset": "[\"金\"]" - }, - { - "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017543859649122806, - "oov_charset": "[\"梁\"]" - }, - { - "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"樂\"]" - } +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e78e4a372286263b8cacf7a3e3a27af596d940b2 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5b91e2d9037ac0d5273684a41a946d6625c4d8df --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-0.5B @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e78e4a372286263b8cacf7a3e3a27af596d940b2 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5b91e2d9037ac0d5273684a41a946d6625c4d8df --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1586a3ce0b9a7729810cfeef8775be9e9b6b4168 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen2.5-72B @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json index 044739760e37c99a1d108edae638ac1276f4d243..77531264d60e6e521687b6f678701f19170f629b 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", - "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json index a54fd4411a585061beb54f978cf1e633378ab0f9..2999a4d45a02d91f8d66ae6e25fa277dee85487f 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "diff": [ - "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", - "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", - "diff": [ - "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007194244604316547, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "diff": [ - "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005847953216374269, - "oov_charset": "[\"¼\"]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json index 72eec86c45285f3c45ecfe33de13e00128260ad0..df3071b4b9996c68f6797fe6b811d113e02b3d45 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json index 380dd9179a590b6b7413869dc677239e58aa9b03..6e70f83df28c46bfcef6138687538a0bd300d4fd 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", - "diff": [ - "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", - "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", - "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", - "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.030534351145038167, - "oov_charset": "[\"‏\", \"‌\"]" - }, - { - "text": "برچسب‌ها: شیرینی ها", - "decoded_text": "برچسب ها: شیرینی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.05263157894736842, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"‌\"]" - }, - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "برچسب‌ها: توت فرنگی, کیک ها", - "decoded_text": "برچسب ها: توت فرنگی, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.037037037037037035, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: انواع سوپ و اش, جو", - "decoded_text": "برچسب ها: انواع سوپ و اش, جو", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03571428571428571, - "oov_charset": "[\"‌\"]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"‌\"]" - }, - { - "text": "برچسب‌ها: شکلات, کیک ها", - "decoded_text": "برچسب ها: شکلات, کیک ها", - "diff": [ - "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"‌\"]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json index 70c1c0795c35a30bf3faa61e7f45b03db2b05262..f508125feaff3095c8d1fbc5a236502b6d67e967 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json index 49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8..4d853773ba7960c544d8888ba1128444db76d0cb 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"!\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023809523809523808, - "oov_charset": "[\"?\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"?\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json index 5d2fa407bbd6b5d68fcde79aae085e45990acc23..ce5511efe8e2017b07ac7dcc09c88a417807f25c 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "언제나 좋은 글 감사합니다ㅡㅡ", - "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", - "diff": [ - "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.125, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "좋은 자료 감사합니다ㅡ0ㅡ", - "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", - "diff": [ - "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", - "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.14285714285714285, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"⁴\"]" - }, - { - "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"¹\"]" - }, - { - "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "diff": [ - "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012048192771084338, - "oov_charset": "[\"…\"]" - }, - { - "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "diff": [ - "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010752688172043012, - "oov_charset": "[\"¹\"]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json index 6755d9364dbcd5976c6bf0e7b19fdafa0e303465..a316a22b3025cdbe5307446b015bc7f586f767a4 100644 --- a/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json @@ -1,155 +1,155 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.037383177570093455, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json index 1be130a260fcacecfda14d11373aaf360fec0e1a..1b115f7233daebf07d3be78b0ea042a1411896d4 100644 --- a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json @@ -1,114 +1,114 @@ -[ - { - "text": "Die französische Philosophin Madeleine Delbrel hat gesagt, dass Gott unterwegs zu finden ist und nicht erst am Ziel. Wer unterwegs ist, der kann sich auch verändern und weiterentwickeln.", - "decoded_text": "Die französische Philo sop hin Madeleine Delbrel hat gesagt, dass Gott unterwegs zu finden ist und nicht erst am Ziel. Wer unterwegs ist, der kann sich auch verändern und weiterentwickeln.", - "diff": [ - "insert text[22:22] --> decoded_text[22:23] '' --> ' '", - "insert text[25:25] --> decoded_text[26:27] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Das Digital Humanities Lab ist ein technologieorientiertes Labor der Philosophisch-Historischen Fakultät mit mehr als 20 Jahren Praxis in der interdisziplinären Forschung. Dessen Wurzeln liegen in der Fotografie, beginnend in den 1920er Jahren, die es in den frühen 1980er Jahren zur digitalen Bildverarbeitung und der langfristigen Erhaltung der digitalen Daten führten.", - "decoded_text": "Das Digital Humanities Lab ist ein technologieorientiertes Labor der Philo sop hisch-Historischen Fakultät mit mehr als 20 Jahren Praxis in der interdisziplinären Forschung. Dessen Wurzeln liegen in der Fotografie, beginnend in den 1920er Jahren, die es in den frühen 1980er Jahren zur digitalen Bildverarbeitung und der langfristigen Erhaltung der digitalen Daten führten.", - "diff": [ - "insert text[74:74] --> decoded_text[74:75] '' --> ' '", - "insert text[77:77] --> decoded_text[78:79] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Lustigerweise stellte sich schnell heraus, dass ich den netten jungen Mann hinter der Theke sogar durch eine gute gemeinsame Freundin kannte. Neben einem kleinen privaten Plausch erzählte er mir ein paar Details zur Marke, ihrer Philosophie und den Produkten, aber dazu später mehr. Da ich noch einiges an Bargeld übrig hatte und der Duft des GlossyBox Parfums mir wirklich gut gefiel, konnte ich irgendwie auch nicht mehr nein sagen. Zum Eau de Parfum (50 ml) gab es in einem niedlichen Jutebeutel noch einen Kajal, einen Lippenstift und ein Set mit 10 weiteren Parfumproben á 2ml, was in der Summe immerhin auch noch einmal 20 ml aus machte. Alles zusammen hat glaube ich 20,00 € gekostet. Für mein Empfinden kein so schlechter Deal.", - "decoded_text": "Lustigerweise stellte sich schnell heraus, dass ich den netten jungen Mann hinter der Theke sogar durch eine gute gemeinsame Freundin kannte. Neben einem kleinen privaten Plausch erzählte er mir ein paar Details zur Marke, ihrer Philo sop hie und den Produkten, aber dazu später mehr. Da ich noch einiges an Bargeld übrig hatte und der Duft des GlossyBox Parfums mir wirklich gut gefiel, konnte ich irgendwie auch nicht mehr nein sagen. Zum Eau de Parfum (50 ml) gab es in einem niedlichen Jutebeutel noch einen Kajal, einen Lippenstift und ein Set mit 10 weiteren Parfumproben á 2ml, was in der Summe immerhin auch noch einmal 20 ml aus machte. Alles zusammen hat glaube ich 20,00 € gekostet. Für mein Empfinden kein so schlechter Deal.", - "diff": [ - "insert text[234:234] --> decoded_text[234:235] '' --> ' '", - "insert text[237:237] --> decoded_text[238:239] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Kai Hoffmann: Er gibt Seminare für Führungskräfte, vor allem in Banken und Versicherungen, er coacht Manager – und läßt sie im Ring antreten. Er hat Philosophie und Psychoanalyse studiert, in beiden Fächern auch promoviert, war in der Geschäftsführung der Frankfurter Oper und boxt selbst seit vielen Jahren.", - "decoded_text": "Kai Hoffmann: Er gibt Seminare für Führungskräfte, vor allem in Banken und Versicherungen, er coacht Manager – und läßt sie im Ring antreten. Er hat Philo sop hie und Psychoanalyse studiert, in beiden Fächern auch promoviert, war in der Geschäftsführung der Frankfurter Oper und boxt selbst seit vielen Jahren.", - "diff": [ - "insert text[154:154] --> decoded_text[154:155] '' --> ' '", - "insert text[157:157] --> decoded_text[158:159] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Was ist das für einer, der Männer und ganz gelegentlich auch Frauen, die seinen Rat suchen, spontan auffordert, mit ihm in den Boxring zu steigen und es ihm handfest zu geben? Genau so arbeitet Kai Hoffmann, Coach für Führungskräfte. Nach Abschluß seines Studiums der Philosophie und Psychoanalyse, nach seiner Promotion arbeitete er lange als Manager in der Geschäftsführung der Frankfurter Oper. Als Lehrbeauftragter für Philosophie an der Hochschule für Musik und Darstellende Kunst ist er bis heute tätig. Das aber hat mit Faustkampf rein gar nichts zu tun.", - "decoded_text": "Was ist das für einer, der Männer und ganz gelegentlich auch Frauen, die seinen Rat suchen, spontan auffordert, mit ihm in den Boxring zu steigen und es ihm handfest zu geben? Genau so arbeitet Kai Hoffmann, Coach für Führungskräfte. Nach Abschluß seines Studiums der Philo sop hie und Psychoanalyse, nach seiner Promotion arbeitete er lange als Manager in der Geschäftsführung der Frankfurter Oper. Als Lehrbeauftragter für Philo sop hie an der Hochschule für Musik und Darstellende Kunst ist er bis heute tätig. Das aber hat mit Faustkampf rein gar nichts zu tun.", - "diff": [ - "insert text[273:273] --> decoded_text[273:274] '' --> ' '", - "insert text[276:276] --> decoded_text[277:278] '' --> ' '", - "insert text[428:428] --> decoded_text[430:431] '' --> ' '", - "insert text[431:431] --> decoded_text[434:435] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Stellen Sie sich vor, Sie treffen sich eines abends mit einem Ihrer Wettbewerber. Sie wollen weder gemeinsam zu Abend essen, noch über Kooperationen sprechen oder über die Schwierigkeiten des Unternehmerlebens. Sie wollen sich einfach mit ihm prügeln. Dafür legen Sie Krawatte und Anzug ab, steigen mit ihm in einen miefigen Keller und holen die Boxhandschuhe raus. Sie halten das für abwegig und unrealistisch? Kai Hoffmann, studierter Philosoph, Psychoanalyst und Autor findet das ganz normal. Sein Motto: Von Muhammad Ali lernen, heißt Führen lernen.", - "decoded_text": "Stellen Sie sich vor, Sie treffen sich eines abends mit einem Ihrer Wettbewerber. Sie wollen weder gemeinsam zu Abend essen, noch über Kooperationen sprechen oder über die Schwierigkeiten des Unternehmerlebens. Sie wollen sich einfach mit ihm prügeln. Dafür legen Sie Krawatte und Anzug ab, steigen mit ihm in einen miefigen Keller und holen die Boxhandschuhe raus. Sie halten das für abwegig und unrealistisch? Kai Hoffmann, studierter Philo sop h, Psychoanalyst und Autor findet das ganz normal. Sein Motto: Von Muhammad Ali lernen, heißt Führen lernen.", - "diff": [ - "insert text[442:442] --> decoded_text[442:443] '' --> ' '", - "insert text[445:445] --> decoded_text[446:447] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Dann steigen sie in den Ring, zum so genannten Box-Coaching, einer neuen Spielart im Karrieretraining. Kai Hoffmann, promovierter Philosoph, Unternehmensberater und Protagonist der noch jungen deutschen Business-Box-Szene, ist selbst seit 25 Jahren Hobbyboxer. „Wie in kaum einem anderen Sport stößt man schnell an Grenzen, die Stärken und Schwächen sichtbar machen. Daher eignet sich Boxen hervorragend als Teil meiner Beratung”, sagt Hoffmann. „In einem normalen Beratungsgespräch kann der Klient hervorragend weiter seine Rolle spielen, ohne dass man ihn authentisch erlebt. ”", - "decoded_text": "Dann steigen sie in den Ring, zum so genannten Box-Coaching, einer neuen Spielart im Karrieretraining. Kai Hoffmann, promovierter Philo sop h, Unternehmensberater und Protagonist der noch jungen deutschen Business-Box-Szene, ist selbst seit 25 Jahren Hobbyboxer. „Wie in kaum einem anderen Sport stößt man schnell an Grenzen, die Stärken und Schwächen sichtbar machen. Daher eignet sich Boxen hervorragend als Teil meiner Beratung”, sagt Hoffmann. „In einem normalen Beratungsgespräch kann der Klient hervorragend weiter seine Rolle spielen, ohne dass man ihn authentisch erlebt. ”", - "diff": [ - "insert text[135:135] --> decoded_text[135:136] '' --> ' '", - "insert text[138:138] --> decoded_text[139:140] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Philosophie IST Geisteswissenschaft. Demnach kann ich den Sinn des Ganzen ergründen? Würde sagen, das nennt man dann Eigentor.", - "decoded_text": "Philo sop hie IST Geisteswissenschaft. Demnach kann ich den Sinn des Ganzen ergründen? Würde sagen, das nennt man dann Eigentor.", - "diff": [ - "insert text[5:5] --> decoded_text[5:6] '' --> ' '", - "insert text[8:8] --> decoded_text[9:10] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Wir erheben keine Angaben zu Ihrem Geschlecht oder Ethnie, religiösen oder philosophischen Überzeugungen, Sexualleben, sexueller Orientierung, politischen Meinungen, Gewerkschaftsmitgliedschaften, Informationen über Ihre Gesundheit sowie zu genetischen und biometrischen Daten (besondere personenbezogene Daten). Wir sammeln auch keine Informationen über strafrechtliche Verurteilungen und Straftaten.", - "decoded_text": "Wir erheben keine Angaben zu Ihrem Geschlecht oder Ethnie, religiösen oder philo sop hischen Überzeugungen, Sexualleben, sexueller Orientierung, politischen Meinungen, Gewerkschaftsmitgliedschaften, Informationen über Ihre Gesundheit sowie zu genetischen und biometrischen Daten (besondere personenbezogene Daten). Wir sammeln auch keine Informationen über strafrechtliche Verurteilungen und Straftaten.", - "diff": [ - "insert text[80:80] --> decoded_text[80:81] '' --> ' '", - "insert text[83:83] --> decoded_text[84:85] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Ururenkel des berühmten Verlagsgründers studierte Germanistik, Journalismus und Philosophie. Einer Promotion über Werbung folgten Studien- und Arbeitsaufenthalte in den USA und in Frankreich, wo er den MBA am INSEAD in Fontainebleau machte. Von 1990 bis 1994 war er mit seinem Bruder Andreas geschäftsführender Gesellschafter in der Langenscheidt Verlagsgruppe. Seit seinem Rückzug aus dem operativen Geschäft ist er als Buchautor und Herausgeber tätig. Regelmäßig verfasste der 58-Jährige Artikel und Kolumnen für bekannte Magazine und Zeitungen. Daneben engagiert sich der Vater von fünf Kindern in zahlreichen sozialen und ökologischen Projekten.", - "decoded_text": "Der Ururenkel des berühmten Verlagsgründers studierte Germanistik, Journalismus und Philo sop hie. Einer Promotion über Werbung folgten Studien- und Arbeitsaufenthalte in den USA und in Frankreich, wo er den MBA am INSEAD in Fontainebleau machte. Von 1990 bis 1994 war er mit seinem Bruder Andreas geschäftsführender Gesellschafter in der Langenscheidt Verlagsgruppe. Seit seinem Rückzug aus dem operativen Geschäft ist er als Buchautor und Herausgeber tätig. Regelmäßig verfasste der 58-Jährige Artikel und Kolumnen für bekannte Magazine und Zeitungen. Daneben engagiert sich der Vater von fünf Kindern in zahlreichen sozialen und ökologischen Projekten.", - "diff": [ - "insert text[89:89] --> decoded_text[89:90] '' --> ' '", - "insert text[92:92] --> decoded_text[93:94] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Die französische Philosophin Madeleine Delbrel hat gesagt, dass Gott unterwegs zu finden ist und nicht erst am Ziel. Wer unterwegs ist, der kann sich auch verändern und weiterentwickeln.", + "decoded_text": "Die französische Philo sop hin Madeleine Delbrel hat gesagt, dass Gott unterwegs zu finden ist und nicht erst am Ziel. Wer unterwegs ist, der kann sich auch verändern und weiterentwickeln.", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[25:25] --> decoded_text[26:27] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Das Digital Humanities Lab ist ein technologieorientiertes Labor der Philosophisch-Historischen Fakultät mit mehr als 20 Jahren Praxis in der interdisziplinären Forschung. Dessen Wurzeln liegen in der Fotografie, beginnend in den 1920er Jahren, die es in den frühen 1980er Jahren zur digitalen Bildverarbeitung und der langfristigen Erhaltung der digitalen Daten führten.", + "decoded_text": "Das Digital Humanities Lab ist ein technologieorientiertes Labor der Philo sop hisch-Historischen Fakultät mit mehr als 20 Jahren Praxis in der interdisziplinären Forschung. Dessen Wurzeln liegen in der Fotografie, beginnend in den 1920er Jahren, die es in den frühen 1980er Jahren zur digitalen Bildverarbeitung und der langfristigen Erhaltung der digitalen Daten führten.", + "diff": [ + "insert text[74:74] --> decoded_text[74:75] '' --> ' '", + "insert text[77:77] --> decoded_text[78:79] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Lustigerweise stellte sich schnell heraus, dass ich den netten jungen Mann hinter der Theke sogar durch eine gute gemeinsame Freundin kannte. Neben einem kleinen privaten Plausch erzählte er mir ein paar Details zur Marke, ihrer Philosophie und den Produkten, aber dazu später mehr. Da ich noch einiges an Bargeld übrig hatte und der Duft des GlossyBox Parfums mir wirklich gut gefiel, konnte ich irgendwie auch nicht mehr nein sagen. Zum Eau de Parfum (50 ml) gab es in einem niedlichen Jutebeutel noch einen Kajal, einen Lippenstift und ein Set mit 10 weiteren Parfumproben á 2ml, was in der Summe immerhin auch noch einmal 20 ml aus machte. Alles zusammen hat glaube ich 20,00 € gekostet. Für mein Empfinden kein so schlechter Deal.", + "decoded_text": "Lustigerweise stellte sich schnell heraus, dass ich den netten jungen Mann hinter der Theke sogar durch eine gute gemeinsame Freundin kannte. Neben einem kleinen privaten Plausch erzählte er mir ein paar Details zur Marke, ihrer Philo sop hie und den Produkten, aber dazu später mehr. Da ich noch einiges an Bargeld übrig hatte und der Duft des GlossyBox Parfums mir wirklich gut gefiel, konnte ich irgendwie auch nicht mehr nein sagen. Zum Eau de Parfum (50 ml) gab es in einem niedlichen Jutebeutel noch einen Kajal, einen Lippenstift und ein Set mit 10 weiteren Parfumproben á 2ml, was in der Summe immerhin auch noch einmal 20 ml aus machte. Alles zusammen hat glaube ich 20,00 € gekostet. Für mein Empfinden kein so schlechter Deal.", + "diff": [ + "insert text[234:234] --> decoded_text[234:235] '' --> ' '", + "insert text[237:237] --> decoded_text[238:239] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Kai Hoffmann: Er gibt Seminare für Führungskräfte, vor allem in Banken und Versicherungen, er coacht Manager – und läßt sie im Ring antreten. Er hat Philosophie und Psychoanalyse studiert, in beiden Fächern auch promoviert, war in der Geschäftsführung der Frankfurter Oper und boxt selbst seit vielen Jahren.", + "decoded_text": "Kai Hoffmann: Er gibt Seminare für Führungskräfte, vor allem in Banken und Versicherungen, er coacht Manager – und läßt sie im Ring antreten. Er hat Philo sop hie und Psychoanalyse studiert, in beiden Fächern auch promoviert, war in der Geschäftsführung der Frankfurter Oper und boxt selbst seit vielen Jahren.", + "diff": [ + "insert text[154:154] --> decoded_text[154:155] '' --> ' '", + "insert text[157:157] --> decoded_text[158:159] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Was ist das für einer, der Männer und ganz gelegentlich auch Frauen, die seinen Rat suchen, spontan auffordert, mit ihm in den Boxring zu steigen und es ihm handfest zu geben? Genau so arbeitet Kai Hoffmann, Coach für Führungskräfte. Nach Abschluß seines Studiums der Philosophie und Psychoanalyse, nach seiner Promotion arbeitete er lange als Manager in der Geschäftsführung der Frankfurter Oper. Als Lehrbeauftragter für Philosophie an der Hochschule für Musik und Darstellende Kunst ist er bis heute tätig. Das aber hat mit Faustkampf rein gar nichts zu tun.", + "decoded_text": "Was ist das für einer, der Männer und ganz gelegentlich auch Frauen, die seinen Rat suchen, spontan auffordert, mit ihm in den Boxring zu steigen und es ihm handfest zu geben? Genau so arbeitet Kai Hoffmann, Coach für Führungskräfte. Nach Abschluß seines Studiums der Philo sop hie und Psychoanalyse, nach seiner Promotion arbeitete er lange als Manager in der Geschäftsführung der Frankfurter Oper. Als Lehrbeauftragter für Philo sop hie an der Hochschule für Musik und Darstellende Kunst ist er bis heute tätig. Das aber hat mit Faustkampf rein gar nichts zu tun.", + "diff": [ + "insert text[273:273] --> decoded_text[273:274] '' --> ' '", + "insert text[276:276] --> decoded_text[277:278] '' --> ' '", + "insert text[428:428] --> decoded_text[430:431] '' --> ' '", + "insert text[431:431] --> decoded_text[434:435] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stellen Sie sich vor, Sie treffen sich eines abends mit einem Ihrer Wettbewerber. Sie wollen weder gemeinsam zu Abend essen, noch über Kooperationen sprechen oder über die Schwierigkeiten des Unternehmerlebens. Sie wollen sich einfach mit ihm prügeln. Dafür legen Sie Krawatte und Anzug ab, steigen mit ihm in einen miefigen Keller und holen die Boxhandschuhe raus. Sie halten das für abwegig und unrealistisch? Kai Hoffmann, studierter Philosoph, Psychoanalyst und Autor findet das ganz normal. Sein Motto: Von Muhammad Ali lernen, heißt Führen lernen.", + "decoded_text": "Stellen Sie sich vor, Sie treffen sich eines abends mit einem Ihrer Wettbewerber. Sie wollen weder gemeinsam zu Abend essen, noch über Kooperationen sprechen oder über die Schwierigkeiten des Unternehmerlebens. Sie wollen sich einfach mit ihm prügeln. Dafür legen Sie Krawatte und Anzug ab, steigen mit ihm in einen miefigen Keller und holen die Boxhandschuhe raus. Sie halten das für abwegig und unrealistisch? Kai Hoffmann, studierter Philo sop h, Psychoanalyst und Autor findet das ganz normal. Sein Motto: Von Muhammad Ali lernen, heißt Führen lernen.", + "diff": [ + "insert text[442:442] --> decoded_text[442:443] '' --> ' '", + "insert text[445:445] --> decoded_text[446:447] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Dann steigen sie in den Ring, zum so genannten Box-Coaching, einer neuen Spielart im Karrieretraining. Kai Hoffmann, promovierter Philosoph, Unternehmensberater und Protagonist der noch jungen deutschen Business-Box-Szene, ist selbst seit 25 Jahren Hobbyboxer. „Wie in kaum einem anderen Sport stößt man schnell an Grenzen, die Stärken und Schwächen sichtbar machen. Daher eignet sich Boxen hervorragend als Teil meiner Beratung”, sagt Hoffmann. „In einem normalen Beratungsgespräch kann der Klient hervorragend weiter seine Rolle spielen, ohne dass man ihn authentisch erlebt. ”", + "decoded_text": "Dann steigen sie in den Ring, zum so genannten Box-Coaching, einer neuen Spielart im Karrieretraining. Kai Hoffmann, promovierter Philo sop h, Unternehmensberater und Protagonist der noch jungen deutschen Business-Box-Szene, ist selbst seit 25 Jahren Hobbyboxer. „Wie in kaum einem anderen Sport stößt man schnell an Grenzen, die Stärken und Schwächen sichtbar machen. Daher eignet sich Boxen hervorragend als Teil meiner Beratung”, sagt Hoffmann. „In einem normalen Beratungsgespräch kann der Klient hervorragend weiter seine Rolle spielen, ohne dass man ihn authentisch erlebt. ”", + "diff": [ + "insert text[135:135] --> decoded_text[135:136] '' --> ' '", + "insert text[138:138] --> decoded_text[139:140] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Philosophie IST Geisteswissenschaft. Demnach kann ich den Sinn des Ganzen ergründen? Würde sagen, das nennt man dann Eigentor.", + "decoded_text": "Philo sop hie IST Geisteswissenschaft. Demnach kann ich den Sinn des Ganzen ergründen? Würde sagen, das nennt man dann Eigentor.", + "diff": [ + "insert text[5:5] --> decoded_text[5:6] '' --> ' '", + "insert text[8:8] --> decoded_text[9:10] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wir erheben keine Angaben zu Ihrem Geschlecht oder Ethnie, religiösen oder philosophischen Überzeugungen, Sexualleben, sexueller Orientierung, politischen Meinungen, Gewerkschaftsmitgliedschaften, Informationen über Ihre Gesundheit sowie zu genetischen und biometrischen Daten (besondere personenbezogene Daten). Wir sammeln auch keine Informationen über strafrechtliche Verurteilungen und Straftaten.", + "decoded_text": "Wir erheben keine Angaben zu Ihrem Geschlecht oder Ethnie, religiösen oder philo sop hischen Überzeugungen, Sexualleben, sexueller Orientierung, politischen Meinungen, Gewerkschaftsmitgliedschaften, Informationen über Ihre Gesundheit sowie zu genetischen und biometrischen Daten (besondere personenbezogene Daten). Wir sammeln auch keine Informationen über strafrechtliche Verurteilungen und Straftaten.", + "diff": [ + "insert text[80:80] --> decoded_text[80:81] '' --> ' '", + "insert text[83:83] --> decoded_text[84:85] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Ururenkel des berühmten Verlagsgründers studierte Germanistik, Journalismus und Philosophie. Einer Promotion über Werbung folgten Studien- und Arbeitsaufenthalte in den USA und in Frankreich, wo er den MBA am INSEAD in Fontainebleau machte. Von 1990 bis 1994 war er mit seinem Bruder Andreas geschäftsführender Gesellschafter in der Langenscheidt Verlagsgruppe. Seit seinem Rückzug aus dem operativen Geschäft ist er als Buchautor und Herausgeber tätig. Regelmäßig verfasste der 58-Jährige Artikel und Kolumnen für bekannte Magazine und Zeitungen. Daneben engagiert sich der Vater von fünf Kindern in zahlreichen sozialen und ökologischen Projekten.", + "decoded_text": "Der Ururenkel des berühmten Verlagsgründers studierte Germanistik, Journalismus und Philo sop hie. Einer Promotion über Werbung folgten Studien- und Arbeitsaufenthalte in den USA und in Frankreich, wo er den MBA am INSEAD in Fontainebleau machte. Von 1990 bis 1994 war er mit seinem Bruder Andreas geschäftsführender Gesellschafter in der Langenscheidt Verlagsgruppe. Seit seinem Rückzug aus dem operativen Geschäft ist er als Buchautor und Herausgeber tätig. Regelmäßig verfasste der 58-Jährige Artikel und Kolumnen für bekannte Magazine und Zeitungen. Daneben engagiert sich der Vater von fünf Kindern in zahlreichen sozialen und ökologischen Projekten.", + "diff": [ + "insert text[89:89] --> decoded_text[89:90] '' --> ' '", + "insert text[92:92] --> decoded_text[93:94] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json index 4afdb70e6e3e1c971236f64dcc50b330bd2bb692..e24d1ce06c52e2e4d05b4d50a3c04025be9ae4f0 100644 --- a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json @@ -1,64 +1,64 @@ -[ - { - "text": "GM companies have patented plant genes that they believe are involved in tolerance to drought, heat, flooding, and salinity – but have not succeeded in using these genes to produce a single new crop with these properties. This is because these functions are highly complex and involve many different genes working together in a precisely regulated way. It is beyond existing GM technology to engineer crops with these sophisticated, delicately regulated gene networks for improved tolerance traits.", - "decoded_text": "GM companies have patented plant genes that they believe are involved in tolerance to drought, heat, flooding, and salinity – but have not succeeded in using these genes to produce a single new crop with these properties. This is because these functions are highly complex and involve many different genes working together in a precisely regulated way. It is beyond existing GM technology to engineer crops with these sop histicated, delicately regulated gene networks for improved tolerance traits.", - "diff": [ - "replace text[418:421] --> decoded_text[418:423] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "The white and grey tones would totally compliment our white cabinets and I think the marble look is sophisticated, elegant, and classic.", - "decoded_text": "The white and grey tones would totally compliment our white cabinets and I think the marble look is sop histicated, elegant, and classic.", - "diff": [ - "insert text[100:100] --> decoded_text[100:101] '' --> ' '", - "insert text[103:103] --> decoded_text[104:105] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Sophia Elizabeth is a Bay Area poet and performing artist with a background in child development, dance, and philosophy and describes herself as \"a self-expressionist and motivational messenger.\" She is intrigued by emotion, order and chaos, the stability of beauty in pain, and the constant need for change as she writes about individual growth and universal acceptance. As an outgrowth of her various interests, she seeks to help others express themselves through the art of being seen, heard, and understood. Find more of her work at www.sopoetry.com or via Facebook: PhiaMeSo.", - "decoded_text": "Sophia Elizabeth is a Bay Area poet and performing artist with a background in child development, dance, and philo sop hy and describes herself as \"a self-expressionist and motivational messenger.\" She is intrigued by emotion, order and chaos, the stability of beauty in pain, and the constant need for change as she writes about individual growth and universal acceptance. As an outgrowth of her various interests, she seeks to help others express themselves through the art of being seen, heard, and understood. Find more of her work at www. sop oetry.com or via Facebook: PhiaMeSo.", - "diff": [ - "replace text[114:117] --> decoded_text[114:119] 'sop' --> ' sop '", - "replace text[541:544] --> decoded_text[543:548] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "If your hen craves an elegant sophisticated hen party, but your guests can’t afford a top notch dinner, consider having high tea in a classy hotel instead. A set high tea will be cheaper than a full dinner, but just as fun and filling, and you’ll have plenty of time for cocktails afterwards.", - "decoded_text": "If your hen craves an elegant sop histicated hen party, but your guests can’t afford a top notch dinner, consider having high tea in a classy hotel instead. A set high tea will be cheaper than a full dinner, but just as fun and filling, and you’ll have plenty of time for cocktails afterwards.", - "diff": [ - "replace text[30:33] --> decoded_text[30:35] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "As you can tell, another big part of my philosophy is owning the inside of the plate and don’t be afraid to drill a guy straight in the knee if you have to. The head’s protected, their knee sure as shit ain’t.", - "decoded_text": "As you can tell, another big part of my philo sop hy is owning the inside of the plate and don’t be afraid to drill a guy straight in the knee if you have to. The head’s protected, their knee sure as shit ain’t.", - "diff": [ - "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Sigh. I didn't say we were an 11-5 team, only that the feeling is exactly the same. Hawks lose, and the world crashes down for many here. When this team loses, even in 13-15, people would complain that we didn't have what it takes, the philosophy is all wrong, etc.", - "decoded_text": "Sigh. I didn't say we were an 11-5 team, only that the feeling is exactly the same. Hawks lose, and the world crashes down for many here. When this team loses, even in 13-15, people would complain that we didn't have what it takes, the philo sop hy is all wrong, etc.", - "diff": [ - "replace text[241:244] --> decoded_text[241:246] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "GM companies have patented plant genes that they believe are involved in tolerance to drought, heat, flooding, and salinity – but have not succeeded in using these genes to produce a single new crop with these properties. This is because these functions are highly complex and involve many different genes working together in a precisely regulated way. It is beyond existing GM technology to engineer crops with these sophisticated, delicately regulated gene networks for improved tolerance traits.", + "decoded_text": "GM companies have patented plant genes that they believe are involved in tolerance to drought, heat, flooding, and salinity – but have not succeeded in using these genes to produce a single new crop with these properties. This is because these functions are highly complex and involve many different genes working together in a precisely regulated way. It is beyond existing GM technology to engineer crops with these sop histicated, delicately regulated gene networks for improved tolerance traits.", + "diff": [ + "replace text[418:421] --> decoded_text[418:423] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The white and grey tones would totally compliment our white cabinets and I think the marble look is sophisticated, elegant, and classic.", + "decoded_text": "The white and grey tones would totally compliment our white cabinets and I think the marble look is sop histicated, elegant, and classic.", + "diff": [ + "insert text[100:100] --> decoded_text[100:101] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Sophia Elizabeth is a Bay Area poet and performing artist with a background in child development, dance, and philosophy and describes herself as \"a self-expressionist and motivational messenger.\" She is intrigued by emotion, order and chaos, the stability of beauty in pain, and the constant need for change as she writes about individual growth and universal acceptance. As an outgrowth of her various interests, she seeks to help others express themselves through the art of being seen, heard, and understood. Find more of her work at www.sopoetry.com or via Facebook: PhiaMeSo.", + "decoded_text": "Sophia Elizabeth is a Bay Area poet and performing artist with a background in child development, dance, and philo sop hy and describes herself as \"a self-expressionist and motivational messenger.\" She is intrigued by emotion, order and chaos, the stability of beauty in pain, and the constant need for change as she writes about individual growth and universal acceptance. As an outgrowth of her various interests, she seeks to help others express themselves through the art of being seen, heard, and understood. Find more of her work at www. sop oetry.com or via Facebook: PhiaMeSo.", + "diff": [ + "replace text[114:117] --> decoded_text[114:119] 'sop' --> ' sop '", + "replace text[541:544] --> decoded_text[543:548] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "If your hen craves an elegant sophisticated hen party, but your guests can’t afford a top notch dinner, consider having high tea in a classy hotel instead. A set high tea will be cheaper than a full dinner, but just as fun and filling, and you’ll have plenty of time for cocktails afterwards.", + "decoded_text": "If your hen craves an elegant sop histicated hen party, but your guests can’t afford a top notch dinner, consider having high tea in a classy hotel instead. A set high tea will be cheaper than a full dinner, but just as fun and filling, and you’ll have plenty of time for cocktails afterwards.", + "diff": [ + "replace text[30:33] --> decoded_text[30:35] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "As you can tell, another big part of my philosophy is owning the inside of the plate and don’t be afraid to drill a guy straight in the knee if you have to. The head’s protected, their knee sure as shit ain’t.", + "decoded_text": "As you can tell, another big part of my philo sop hy is owning the inside of the plate and don’t be afraid to drill a guy straight in the knee if you have to. The head’s protected, their knee sure as shit ain’t.", + "diff": [ + "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Sigh. I didn't say we were an 11-5 team, only that the feeling is exactly the same. Hawks lose, and the world crashes down for many here. When this team loses, even in 13-15, people would complain that we didn't have what it takes, the philosophy is all wrong, etc.", + "decoded_text": "Sigh. I didn't say we were an 11-5 team, only that the feeling is exactly the same. Hawks lose, and the world crashes down for many here. When this team loses, even in 13-15, people would complain that we didn't have what it takes, the philo sop hy is all wrong, etc.", + "diff": [ + "replace text[241:244] --> decoded_text[241:246] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json index f5ca25a924d0ac48120c324c43c2c6746324f2da..a199f8cc477c2b46913fd0e0d42cf255adc4976a 100644 --- a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el sop orte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[25:28] --> decoded_text[25:30] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A) siempre me quedaría la opción de ir a Talasoponiente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", - "decoded_text": "A) siempre me quedaría la opción de ir a Tala sop oniente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", - "diff": [ - "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Habrá soporte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", - "decoded_text": "Habrá sop orte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", - "diff": [ - "insert text[6:6] --> decoded_text[6:7] '' --> ' '", - "insert text[9:9] --> decoded_text[10:11] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Psicoterapia breve porque contamos con un período corto de contacto con el paciente y su familia. En ese vínculo terapéutico acotado, debemos evaluar la estrategia más adecuada y ponerla en funcionamiento; elaborando un diagnóstico situacional de este paciente. La posibilidad de hablar acerca de los factores que preocupan al paciente y su familia, reducirán los problemas psíquicos posoperatorios.", - "decoded_text": "Psicoterapia breve porque contamos con un período corto de contacto con el paciente y su familia. En ese vínculo terapéutico acotado, debemos evaluar la estrategia más adecuada y ponerla en funcionamiento; elaborando un diagnóstico situacional de este paciente. La posibilidad de hablar acerca de los factores que preocupan al paciente y su familia, reducirán los problemas psíquicos po sop eratorios.", - "diff": [ - "replace text[386:389] --> decoded_text[386:391] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Psicoterapia Planificada: se establece un plan de trabajo adecuado a las necesidades del paciente (cantidad de entrevista preoperatorias, ya sea en consultorios externos o en la internación; entrevistas posoperatorias y cierre del proceso). La duración y la frecuencia en este proceso está casi siempre subordinada a la fecha programada de la cirugía.", - "decoded_text": "Psicoterapia Planificada: se establece un plan de trabajo adecuado a las necesidades del paciente (cantidad de entrevista preoperatorias, ya sea en consultorios externos o en la internación; entrevistas po sop eratorias y cierre del proceso). La duración y la frecuencia en este proceso está casi siempre subordinada a la fecha programada de la cirugía.", - "diff": [ - "replace text[205:208] --> decoded_text[205:210] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Hola Maritza, la decisión es tuya realmente. Nosotros te comentamos los pros y contras de ambas vías, pero al final la elección no es de nadie, sino tuya. Efectivamente los implantes cada 10 años aprox. deben renovarse. hay que sopesar todas las particularidades de cada una de las opciones.", - "decoded_text": "Hola Maritza, la decisión es tuya realmente. Nosotros te comentamos los pros y contras de ambas vías, pero al final la elección no es de nadie, sino tuya. Efectivamente los implantes cada 10 años aprox. deben renovarse. hay que sop esar todas las particularidades de cada una de las opciones.", - "diff": [ - "replace text[228:291] --> decoded_text[228:293] 'sopesar todas las particularidades de cada una de las opciones.' --> ' sop esar todas las particularidades de cada una de las opciones.'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Hola Claudia, haces bien en ir con esa cautela, pues a tu edad y presentando detalles que pueden leerse como factores de riesgo no hay que precipitarse. Nos has explicado bastante bien tu historial y nos hacemos una idea, pero aún así no podemos darte una indicación concreta con total seguridad. Necesitamos comprobar, por ejemplo, la calidad de tus tejidos mamarios o la elasticidad de la piel para ver en que grado soportarían una nueva intervención. En general podríamos decirte que si, que algo discreto podría ser factible, pero estaríamos hablando a ciegas, y ciertamente no es nuestro estilo.", - "decoded_text": "Hola Claudia, haces bien en ir con esa cautela, pues a tu edad y presentando detalles que pueden leerse como factores de riesgo no hay que precipitarse. Nos has explicado bastante bien tu historial y nos hacemos una idea, pero aún así no podemos darte una indicación concreta con total seguridad. Necesitamos comprobar, por ejemplo, la calidad de tus tejidos mamarios o la elasticidad de la piel para ver en que grado sop ortarían una nueva intervención. En general podríamos decirte que si, que algo discreto podría ser factible, pero estaríamos hablando a ciegas, y ciertamente no es nuestro estilo.", - "diff": [ - "replace text[418:421] --> decoded_text[418:423] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Estamos a vuestra disposición. Mientras esperamos vuestra respuesta, os enviamos un abrazo, y un soplo de esperanza, pues lo vuestro en chicas de vuestra edad tiene solución.", - "decoded_text": "Estamos a vuestra disposición. Mientras esperamos vuestra respuesta, os enviamos un abrazo, y un sop lo de esperanza, pues lo vuestro en chicas de vuestra edad tiene solución.", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> ' '", - "insert text[100:100] --> decoded_text[101:102] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Los dos estamos realmente mal después de tanto alcohol. No sabía él, pero antes de esta tanda de cinco chupitos me he bebido como cuatro cervezas, dos chupitos de tequila y dos copas sumamente cargadas. Es decir, tres cuartas partes de alcohol y la cuarta restante de algún refresco cutre con el que apaciguar el sabor. Por lo que la idea la acojo como si fuera un soplo de aire fresco.", - "decoded_text": "Los dos estamos realmente mal después de tanto alcohol. No sabía él, pero antes de esta tanda de cinco chupitos me he bebido como cuatro cervezas, dos chupitos de tequila y dos copas sumamente cargadas. Es decir, tres cuartas partes de alcohol y la cuarta restante de algún refresco cutre con el que apaciguar el sabor. Por lo que la idea la acojo como si fuera un sop lo de aire fresco.", - "diff": [ - "replace text[365:368] --> decoded_text[365:370] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Amundsen deseaba ser el primero en alcanzar el Polo Sur porque no pudo hacerlo en el Polo Norte. Reunió un equipo de esquiadores profesionales y usó perros de tiro; los animales más débiles fueron sacrificados y devorados por los más fuertes para asegurarse así el regreso. Su competidor, el británico Scott, no soportaba la idea de sacrificar a los perros y escogió ponies siberianos..", - "decoded_text": "Amundsen deseaba ser el primero en alcanzar el Polo Sur porque no pudo hacerlo en el Polo Norte. Reunió un equipo de esquiadores profesionales y usó perros de tiro; los animales más débiles fueron sacrificados y devorados por los más fuertes para asegurarse así el regreso. Su competidor, el británico Scott, no sop ortaba la idea de sacrificar a los perros y escogió ponies siberianos..", - "diff": [ - "replace text[312:315] --> decoded_text[312:317] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el sop orte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[25:28] --> decoded_text[25:30] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A) siempre me quedaría la opción de ir a Talasoponiente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", + "decoded_text": "A) siempre me quedaría la opción de ir a Tala sop oniente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", + "diff": [ + "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Habrá soporte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", + "decoded_text": "Habrá sop orte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", + "diff": [ + "insert text[6:6] --> decoded_text[6:7] '' --> ' '", + "insert text[9:9] --> decoded_text[10:11] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Psicoterapia breve porque contamos con un período corto de contacto con el paciente y su familia. En ese vínculo terapéutico acotado, debemos evaluar la estrategia más adecuada y ponerla en funcionamiento; elaborando un diagnóstico situacional de este paciente. La posibilidad de hablar acerca de los factores que preocupan al paciente y su familia, reducirán los problemas psíquicos posoperatorios.", + "decoded_text": "Psicoterapia breve porque contamos con un período corto de contacto con el paciente y su familia. En ese vínculo terapéutico acotado, debemos evaluar la estrategia más adecuada y ponerla en funcionamiento; elaborando un diagnóstico situacional de este paciente. La posibilidad de hablar acerca de los factores que preocupan al paciente y su familia, reducirán los problemas psíquicos po sop eratorios.", + "diff": [ + "replace text[386:389] --> decoded_text[386:391] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Psicoterapia Planificada: se establece un plan de trabajo adecuado a las necesidades del paciente (cantidad de entrevista preoperatorias, ya sea en consultorios externos o en la internación; entrevistas posoperatorias y cierre del proceso). La duración y la frecuencia en este proceso está casi siempre subordinada a la fecha programada de la cirugía.", + "decoded_text": "Psicoterapia Planificada: se establece un plan de trabajo adecuado a las necesidades del paciente (cantidad de entrevista preoperatorias, ya sea en consultorios externos o en la internación; entrevistas po sop eratorias y cierre del proceso). La duración y la frecuencia en este proceso está casi siempre subordinada a la fecha programada de la cirugía.", + "diff": [ + "replace text[205:208] --> decoded_text[205:210] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Hola Maritza, la decisión es tuya realmente. Nosotros te comentamos los pros y contras de ambas vías, pero al final la elección no es de nadie, sino tuya. Efectivamente los implantes cada 10 años aprox. deben renovarse. hay que sopesar todas las particularidades de cada una de las opciones.", + "decoded_text": "Hola Maritza, la decisión es tuya realmente. Nosotros te comentamos los pros y contras de ambas vías, pero al final la elección no es de nadie, sino tuya. Efectivamente los implantes cada 10 años aprox. deben renovarse. hay que sop esar todas las particularidades de cada una de las opciones.", + "diff": [ + "replace text[228:291] --> decoded_text[228:293] 'sopesar todas las particularidades de cada una de las opciones.' --> ' sop esar todas las particularidades de cada una de las opciones.'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Hola Claudia, haces bien en ir con esa cautela, pues a tu edad y presentando detalles que pueden leerse como factores de riesgo no hay que precipitarse. Nos has explicado bastante bien tu historial y nos hacemos una idea, pero aún así no podemos darte una indicación concreta con total seguridad. Necesitamos comprobar, por ejemplo, la calidad de tus tejidos mamarios o la elasticidad de la piel para ver en que grado soportarían una nueva intervención. En general podríamos decirte que si, que algo discreto podría ser factible, pero estaríamos hablando a ciegas, y ciertamente no es nuestro estilo.", + "decoded_text": "Hola Claudia, haces bien en ir con esa cautela, pues a tu edad y presentando detalles que pueden leerse como factores de riesgo no hay que precipitarse. Nos has explicado bastante bien tu historial y nos hacemos una idea, pero aún así no podemos darte una indicación concreta con total seguridad. Necesitamos comprobar, por ejemplo, la calidad de tus tejidos mamarios o la elasticidad de la piel para ver en que grado sop ortarían una nueva intervención. En general podríamos decirte que si, que algo discreto podría ser factible, pero estaríamos hablando a ciegas, y ciertamente no es nuestro estilo.", + "diff": [ + "replace text[418:421] --> decoded_text[418:423] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Estamos a vuestra disposición. Mientras esperamos vuestra respuesta, os enviamos un abrazo, y un soplo de esperanza, pues lo vuestro en chicas de vuestra edad tiene solución.", + "decoded_text": "Estamos a vuestra disposición. Mientras esperamos vuestra respuesta, os enviamos un abrazo, y un sop lo de esperanza, pues lo vuestro en chicas de vuestra edad tiene solución.", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> ' '", + "insert text[100:100] --> decoded_text[101:102] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Los dos estamos realmente mal después de tanto alcohol. No sabía él, pero antes de esta tanda de cinco chupitos me he bebido como cuatro cervezas, dos chupitos de tequila y dos copas sumamente cargadas. Es decir, tres cuartas partes de alcohol y la cuarta restante de algún refresco cutre con el que apaciguar el sabor. Por lo que la idea la acojo como si fuera un soplo de aire fresco.", + "decoded_text": "Los dos estamos realmente mal después de tanto alcohol. No sabía él, pero antes de esta tanda de cinco chupitos me he bebido como cuatro cervezas, dos chupitos de tequila y dos copas sumamente cargadas. Es decir, tres cuartas partes de alcohol y la cuarta restante de algún refresco cutre con el que apaciguar el sabor. Por lo que la idea la acojo como si fuera un sop lo de aire fresco.", + "diff": [ + "replace text[365:368] --> decoded_text[365:370] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Amundsen deseaba ser el primero en alcanzar el Polo Sur porque no pudo hacerlo en el Polo Norte. Reunió un equipo de esquiadores profesionales y usó perros de tiro; los animales más débiles fueron sacrificados y devorados por los más fuertes para asegurarse así el regreso. Su competidor, el británico Scott, no soportaba la idea de sacrificar a los perros y escogió ponies siberianos..", + "decoded_text": "Amundsen deseaba ser el primero en alcanzar el Polo Sur porque no pudo hacerlo en el Polo Norte. Reunió un equipo de esquiadores profesionales y usó perros de tiro; los animales más débiles fueron sacrificados y devorados por los más fuertes para asegurarse así el regreso. Su competidor, el británico Scott, no sop ortaba la idea de sacrificar a los perros y escogió ponies siberianos..", + "diff": [ + "replace text[312:315] --> decoded_text[312:317] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json index 7b6ea2853f1a491a3a63b6c386c943889bad6f31..b81361cb27e215ef0c337787a53d2415de1f4074 100644 --- a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Magnifique appartement. Un rêve ! Et quelle belle terrasse, avec une vue superbe sur les arbres du Parc... Je me verrais bien allongée sur le transat une coupe de champagne à la main, en train de discuter art et philosophie méditative avec un Jérémy ressuscité... Ah quelle merveilleuse image A +", - "decoded_text": "Magnifique appartement. Un rêve ! Et quelle belle terrasse, avec une vue superbe sur les arbres du Parc... Je me verrais bien allongée sur le transat une coupe de champagne à la main, en train de discuter art et philo sop hie méditative avec un Jérémy ressuscité... Ah quelle merveilleuse image A +", - "diff": [ - "replace text[217:220] --> decoded_text[217:222] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Notre relation a) à la logique dite de l\"intégration\" des immigrés b) de formation des élites à un tout jeune âge c) de séparation entre les disciplines d) d'une école coupée de la pratique trouve son origine dans cette philosophie \"cartésienne\"....Non pas, rompre avec l'expérience, mais trouver un moyen de distinguer les véritables idées par un travail de mise à distance, d'éloignement ainsi confondu avec le recul.", - "decoded_text": "Notre relation a) à la logique dite de l\"intégration\" des immigrés b) de formation des élites à un tout jeune âge c) de séparation entre les disciplines d) d'une école coupée de la pratique trouve son origine dans cette philo sop hie \"cartésienne\"....Non pas, rompre avec l'expérience, mais trouver un moyen de distinguer les véritables idées par un travail de mise à distance, d'éloignement ainsi confondu avec le recul.", - "diff": [ - "replace text[225:228] --> decoded_text[225:230] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quant à la seconde raison, nous l'évoquions déjà dans notre rapport il y a dix ans, elle a depuis pris de l'ampleur. Il s'agit de la nécessité de créer des équipes spécialisées, performantes, car notre droit est beaucoup plus sophistiqué qu'il ne l'était auparavant.", - "decoded_text": "Quant à la seconde raison, nous l'évoquions déjà dans notre rapport il y a dix ans, elle a depuis pris de l'ampleur. Il s'agit de la nécessité de créer des équipes spécialisées, performantes, car notre droit est beaucoup plus sop histiqué qu'il ne l'était auparavant.", - "diff": [ - "replace text[226:229] --> decoded_text[226:231] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Nous devons voir les choses en face, car nous sommes aujourd'hui dans un monde nouveau qui se caractérise par des éléments très différents, comme la concentration urbaine, le développement du contentieux de masse, la sophistication du droit, la nouvelle culture des magistrats actuels, qui ont absolument besoin de travailler dans des équipes, et la diversification des modes de traitement.", - "decoded_text": "Nous devons voir les choses en face, car nous sommes aujourd'hui dans un monde nouveau qui se caractérise par des éléments très différents, comme la concentration urbaine, le développement du contentieux de masse, la sop histication du droit, la nouvelle culture des magistrats actuels, qui ont absolument besoin de travailler dans des équipes, et la diversification des modes de traitement.", - "diff": [ - "replace text[217:220] --> decoded_text[217:222] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "S'agissant du programme « Protection judiciaire de la jeunesse », la philosophie est la même que celle guidant le programme « Administration pénitentiaire ». La priorité a été accordée aux mesures d'enfermement, ce qui n'est pas nouveau, et les créations d'emplois permettront, entre autres, d'assurer le fonctionnement à pleine capacité des sept établissements pénitentiaires pour mineurs prévus par la loi du 9 septembre 2002 d'orientation et de programmation pour la justice.", - "decoded_text": "S'agissant du programme « Protection judiciaire de la jeunesse », la philo sop hie est la même que celle guidant le programme « Administration pénitentiaire ». La priorité a été accordée aux mesures d'enfermement, ce qui n'est pas nouveau, et les créations d'emplois permettront, entre autres, d'assurer le fonctionnement à pleine capacité des sept établissements pénitentiaires pour mineurs prévus par la loi du 9 septembre 2002 d'orientation et de programmation pour la justice.", - "diff": [ - "replace text[74:77] --> decoded_text[74:79] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "C’est dans le cadre exceptionnel offert par les Sources de Caudalie, que la 7ème édition du Cycle Valoriser le Capital Humain a eu lieu. Un environnement propice aux échanges qui a accueilli les jeudi et vendredi 15 et 16 mars, un philosophe français, Charles Pépin.", - "decoded_text": "C’est dans le cadre exceptionnel offert par les Sources de Caudalie, que la 7ème édition du Cycle Valoriser le Capital Humain a eu lieu. Un environnement propice aux échanges qui a accueilli les jeudi et vendredi 15 et 16 mars, un philo sop he français, Charles Pépin.", - "diff": [ - "replace text[236:239] --> decoded_text[236:241] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "André Comte-Sponville est mon philosophe préféré depuis une vingtaine d'années, pas étonnant qu'un personnage ayant une pensée si claire et si objective en arrive à de saines conclusions même dans des domaines fort éloignés les uns des autres. A lire sans faute si l'on veut commencer à rentrer dans l'esprit de cet authentique intellectuel: Petit traité des grandes vertus.", - "decoded_text": "André Comte-Sponville est mon philo sop he préféré depuis une vingtaine d'années, pas étonnant qu'un personnage ayant une pensée si claire et si objective en arrive à de saines conclusions même dans des domaines fort éloignés les uns des autres. A lire sans faute si l'on veut commencer à rentrer dans l'esprit de cet authentique intellectuel: Petit traité des grandes vertus.", - "diff": [ - "replace text[35:38] --> decoded_text[35:40] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "J'ai vecu dans un milieu où on ne parlait jamais de sexe. Nous étions tous des hommes célibataires et on échangeait des points de vue philosophique.", - "decoded_text": "J'ai vecu dans un milieu où on ne parlait jamais de sexe. Nous étions tous des hommes célibataires et on échangeait des points de vue philo sop hique.", - "diff": [ - "insert text[139:139] --> decoded_text[139:140] '' --> ' '", - "insert text[142:142] --> decoded_text[143:144] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "L'arbalète de chasse sous-marine utilise ce même principe d'une façon un peu plus sophistiquée car il ne s'agit pas de lancer un simple caillou, mais une flèche en acier de plus d'1 mètre de long et...sous l'eau", - "decoded_text": "L'arbalète de chasse sous-marine utilise ce même principe d'une façon un peu plus sop histiquée car il ne s'agit pas de lancer un simple caillou, mais une flèche en acier de plus d'1 mètre de long et...sous l'eau", - "diff": [ - "replace text[82:85] --> decoded_text[82:87] 'sop' --> ' sop '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cette métaphore, comme beaucoup de métaphores philosophiques en sanskrit, peut sembler parfaitement obscure au premier abord, mais devient fort éclairante , quand on y regarde de plus près.", - "decoded_text": "Cette métaphore, comme beaucoup de métaphores philo sop hiques en sanskrit, peut sembler parfaitement obscure au premier abord, mais devient fort éclairante , quand on y regarde de plus près.", - "diff": [ - "insert text[51:51] --> decoded_text[51:52] '' --> ' '", - "insert text[54:54] --> decoded_text[55:56] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Magnifique appartement. Un rêve ! Et quelle belle terrasse, avec une vue superbe sur les arbres du Parc... Je me verrais bien allongée sur le transat une coupe de champagne à la main, en train de discuter art et philosophie méditative avec un Jérémy ressuscité... Ah quelle merveilleuse image A +", + "decoded_text": "Magnifique appartement. Un rêve ! Et quelle belle terrasse, avec une vue superbe sur les arbres du Parc... Je me verrais bien allongée sur le transat une coupe de champagne à la main, en train de discuter art et philo sop hie méditative avec un Jérémy ressuscité... Ah quelle merveilleuse image A +", + "diff": [ + "replace text[217:220] --> decoded_text[217:222] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Notre relation a) à la logique dite de l\"intégration\" des immigrés b) de formation des élites à un tout jeune âge c) de séparation entre les disciplines d) d'une école coupée de la pratique trouve son origine dans cette philosophie \"cartésienne\"....Non pas, rompre avec l'expérience, mais trouver un moyen de distinguer les véritables idées par un travail de mise à distance, d'éloignement ainsi confondu avec le recul.", + "decoded_text": "Notre relation a) à la logique dite de l\"intégration\" des immigrés b) de formation des élites à un tout jeune âge c) de séparation entre les disciplines d) d'une école coupée de la pratique trouve son origine dans cette philo sop hie \"cartésienne\"....Non pas, rompre avec l'expérience, mais trouver un moyen de distinguer les véritables idées par un travail de mise à distance, d'éloignement ainsi confondu avec le recul.", + "diff": [ + "replace text[225:228] --> decoded_text[225:230] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quant à la seconde raison, nous l'évoquions déjà dans notre rapport il y a dix ans, elle a depuis pris de l'ampleur. Il s'agit de la nécessité de créer des équipes spécialisées, performantes, car notre droit est beaucoup plus sophistiqué qu'il ne l'était auparavant.", + "decoded_text": "Quant à la seconde raison, nous l'évoquions déjà dans notre rapport il y a dix ans, elle a depuis pris de l'ampleur. Il s'agit de la nécessité de créer des équipes spécialisées, performantes, car notre droit est beaucoup plus sop histiqué qu'il ne l'était auparavant.", + "diff": [ + "replace text[226:229] --> decoded_text[226:231] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Nous devons voir les choses en face, car nous sommes aujourd'hui dans un monde nouveau qui se caractérise par des éléments très différents, comme la concentration urbaine, le développement du contentieux de masse, la sophistication du droit, la nouvelle culture des magistrats actuels, qui ont absolument besoin de travailler dans des équipes, et la diversification des modes de traitement.", + "decoded_text": "Nous devons voir les choses en face, car nous sommes aujourd'hui dans un monde nouveau qui se caractérise par des éléments très différents, comme la concentration urbaine, le développement du contentieux de masse, la sop histication du droit, la nouvelle culture des magistrats actuels, qui ont absolument besoin de travailler dans des équipes, et la diversification des modes de traitement.", + "diff": [ + "replace text[217:220] --> decoded_text[217:222] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "S'agissant du programme « Protection judiciaire de la jeunesse », la philosophie est la même que celle guidant le programme « Administration pénitentiaire ». La priorité a été accordée aux mesures d'enfermement, ce qui n'est pas nouveau, et les créations d'emplois permettront, entre autres, d'assurer le fonctionnement à pleine capacité des sept établissements pénitentiaires pour mineurs prévus par la loi du 9 septembre 2002 d'orientation et de programmation pour la justice.", + "decoded_text": "S'agissant du programme « Protection judiciaire de la jeunesse », la philo sop hie est la même que celle guidant le programme « Administration pénitentiaire ». La priorité a été accordée aux mesures d'enfermement, ce qui n'est pas nouveau, et les créations d'emplois permettront, entre autres, d'assurer le fonctionnement à pleine capacité des sept établissements pénitentiaires pour mineurs prévus par la loi du 9 septembre 2002 d'orientation et de programmation pour la justice.", + "diff": [ + "replace text[74:77] --> decoded_text[74:79] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "C’est dans le cadre exceptionnel offert par les Sources de Caudalie, que la 7ème édition du Cycle Valoriser le Capital Humain a eu lieu. Un environnement propice aux échanges qui a accueilli les jeudi et vendredi 15 et 16 mars, un philosophe français, Charles Pépin.", + "decoded_text": "C’est dans le cadre exceptionnel offert par les Sources de Caudalie, que la 7ème édition du Cycle Valoriser le Capital Humain a eu lieu. Un environnement propice aux échanges qui a accueilli les jeudi et vendredi 15 et 16 mars, un philo sop he français, Charles Pépin.", + "diff": [ + "replace text[236:239] --> decoded_text[236:241] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "André Comte-Sponville est mon philosophe préféré depuis une vingtaine d'années, pas étonnant qu'un personnage ayant une pensée si claire et si objective en arrive à de saines conclusions même dans des domaines fort éloignés les uns des autres. A lire sans faute si l'on veut commencer à rentrer dans l'esprit de cet authentique intellectuel: Petit traité des grandes vertus.", + "decoded_text": "André Comte-Sponville est mon philo sop he préféré depuis une vingtaine d'années, pas étonnant qu'un personnage ayant une pensée si claire et si objective en arrive à de saines conclusions même dans des domaines fort éloignés les uns des autres. A lire sans faute si l'on veut commencer à rentrer dans l'esprit de cet authentique intellectuel: Petit traité des grandes vertus.", + "diff": [ + "replace text[35:38] --> decoded_text[35:40] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "J'ai vecu dans un milieu où on ne parlait jamais de sexe. Nous étions tous des hommes célibataires et on échangeait des points de vue philosophique.", + "decoded_text": "J'ai vecu dans un milieu où on ne parlait jamais de sexe. Nous étions tous des hommes célibataires et on échangeait des points de vue philo sop hique.", + "diff": [ + "insert text[139:139] --> decoded_text[139:140] '' --> ' '", + "insert text[142:142] --> decoded_text[143:144] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "L'arbalète de chasse sous-marine utilise ce même principe d'une façon un peu plus sophistiquée car il ne s'agit pas de lancer un simple caillou, mais une flèche en acier de plus d'1 mètre de long et...sous l'eau", + "decoded_text": "L'arbalète de chasse sous-marine utilise ce même principe d'une façon un peu plus sop histiquée car il ne s'agit pas de lancer un simple caillou, mais une flèche en acier de plus d'1 mètre de long et...sous l'eau", + "diff": [ + "replace text[82:85] --> decoded_text[82:87] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cette métaphore, comme beaucoup de métaphores philosophiques en sanskrit, peut sembler parfaitement obscure au premier abord, mais devient fort éclairante , quand on y regarde de plus près.", + "decoded_text": "Cette métaphore, comme beaucoup de métaphores philo sop hiques en sanskrit, peut sembler parfaitement obscure au premier abord, mais devient fort éclairante , quand on y regarde de plus près.", + "diff": [ + "insert text[51:51] --> decoded_text[51:52] '' --> ' '", + "insert text[54:54] --> decoded_text[55:56] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json index cd60050dff1d745c2b05b28e413fbb40f732c25e..ea9da4d8d3c968295ae10ac067bf7535a49883a4 100644 --- a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json @@ -1,24 +1,24 @@ -[ - { - "text": "人性學 이야기(Moral Philosophy 36) - 문화적 환경과 인성 4페이지", - "decoded_text": "人性學 이야기(Moral Philo sop hy 36) - 문화적 환경과 인성 4페이지", - "diff": [ - "insert text[19:19] --> decoded_text[19:20] '' --> ' '", - "insert text[22:22] --> decoded_text[23:24] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.", - "decoded_text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philo sop hy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.", - "diff": [ - "insert text[486:486] --> decoded_text[486:487] '' --> ' '", - "insert text[489:489] --> decoded_text[490:491] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "人性學 이야기(Moral Philosophy 36) - 문화적 환경과 인성 4페이지", + "decoded_text": "人性學 이야기(Moral Philo sop hy 36) - 문화적 환경과 인성 4페이지", + "diff": [ + "insert text[19:19] --> decoded_text[19:20] '' --> ' '", + "insert text[22:22] --> decoded_text[23:24] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.", + "decoded_text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philo sop hy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.", + "diff": [ + "insert text[486:486] --> decoded_text[486:487] '' --> ' '", + "insert text[489:489] --> decoded_text[490:491] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json index 044739760e37c99a1d108edae638ac1276f4d243..77531264d60e6e521687b6f678701f19170f629b 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", - "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json index 346ef60e51451a7fcfd1d66b8194b576febd5e09..629e26e6c5c7f857418b1c3625fae4f322452c80 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "diff": [ - "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "diff": [ - "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", - "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", - "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", - "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", - "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", - "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json index 6e7e33df7d8b83b93e7de01ec45695b92cfc8353..f4e4ecdb515292b758d6286e69b570d824d99d60 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "diff": [ - "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "diff": [ - "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json index 9f0009ec60f4baf997b9a13aa566c6bb9776a5d7..59c1eda8928a616d850d9d89405e0fca8f845f67 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json @@ -1,82 +1,82 @@ -[ - { - "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", - "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", - "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", - "diff": [ - "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", - "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", - "diff": [ - "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", - "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", - "diff": [ - "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", - "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", - "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", - "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", - "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json index 77f37bd8d9d5eed663f216b1cba6392bae60dcb1..57b356b49b3de384d1c9511a1d7b429cb19b892f 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json @@ -1,145 +1,145 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- ������������ / ������ �������� ���������������� - ���������� ����������.. ( 1)", - "diff": [ - "replace text[2:8] --> decoded_text[2:14] 'اللواء' --> '������������'", - "replace text[11:14] --> decoded_text[17:23] 'علي' --> '������'", - "replace text[15:19] --> decoded_text[24:32] 'محمد' --> '��������'", - "replace text[20:28] --> decoded_text[33:49] 'الكحلاني' --> '����������������'", - "replace text[31:36] --> decoded_text[52:62] 'نصيحة' --> '����������'", - "replace text[37:43] --> decoded_text[63:73] 'صادقة ' --> '����������'" - ], - "n_oov_chars": 31, - "oov_ratio": 0.62, - "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" - }, - { - "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", - "decoded_text": "���������� ������������ ��������������.. ���������� ������������ �������� ������ ���������� ���������� ������������ ���������������� ���� �������������� ���������� ��������������, ������ ������������ �������������������� ���������������� ���� 22�������� ���������� 1990��.. ������ ���������� ���� ���������� ���� ���������� �������������� ���������� ���������� ������ ������ �������� ������ �������������� ���� ������������ ������ ������������, ������ ������������ ���� ������������ ������������������, ������ ������������ ���� ������ �������������� ���������������� ���������� ��������������������.. �������� ������ �������������� ���� �������� ������ ���������� ������������ ���� ���������� ������, ������ ���������� �������� ������������ �������� ���������� ������ ���������� ���������� ������ ������������������ ���� ���������� 1990�� ������������ ������������ �������������� ������ ������ ������������ �������������� ���� ����������������, ������������ �������� �������������� ������������ ������ ���������� �������� �������������� ���� ������ ������������ ����������������������.. �������� ������������ ���������������� ������������ �������������� ������ ������������ ������������ �������������� �������� ���� ������������ ������������ ���������� ������������ �������������� ������������ ���� ������ ���������� �������� ���������� �������� ���������� ���� ������������ ���������� ���� ������ ���������� ��������, ������ ���������� ���������� ������������ ������������.. ���������� �������������� �������� ���������� ���� ���������� ������������������ ���� ���������� �������������� �������� (��������) ���� ������������ ������������ �������� ���������� �������� ������������ ���� ���������� �������������� ������ ���������� ����������..", - "diff": [ - "replace text[0:20] --> decoded_text[0:38] 'اليمن جنوبها وشمالها' --> '���������� ������������ ��������������'", - "replace text[23:97] --> decoded_text[41:178] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '���������� ������������ �������� ������ ���������� ���������� ������������ ���������������� ���� �������������� ���������� ��������������'", - "replace text[99:132] --> decoded_text[180:242] 'ومن حياتها الاعتيادية الطبيعية في' --> '������ ������������ �������������������� ���������������� ����'", - "replace text[135:145] --> decoded_text[245:264] 'مايو العام' --> '�������� ����������'", - "replace text[150:151] --> decoded_text[269:271] 'م' --> '��'", - "replace text[154:247] --> decoded_text[274:443] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '������ ���������� ���� ���������� ���� ���������� �������������� ���������� ���������� ������ ������ �������� ������ �������������� ���� ������������ ������ ������������'", - "replace text[249:279] --> decoded_text[445:501] 'ومن اضطراب في نسيجها الاجتماعي' --> '������ ������������ ���� ������������ ������������������'", - "replace text[281:332] --> decoded_text[503:598] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> '������ ������������ ���� ������ �������������� ���������������� ���������� ��������������������'", - "replace text[335:389] --> decoded_text[601:699] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '�������� ������ �������������� ���� �������� ������ ���������� ������������ ���� ���������� ������'", - "replace text[391:462] --> decoded_text[701:831] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> '������ ���������� �������� ������������ �������� ���������� ������ ���������� ���������� ������ ������������������ ���� ����������'", - "replace text[467:525] --> decoded_text[836:943] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '�� ������������ ������������ �������������� ������ ������ ������������ �������������� ���� ����������������'", - "replace text[527:602] --> decoded_text[945:1084] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> '������������ �������� �������������� ������������ ������ ���������� �������� �������������� ���� ������ ������������ ����������������������'", - "replace text[605:785] --> decoded_text[1087:1417] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '�������� ������������ ���������������� ������������ �������������� ������ ������������ ������������ �������������� �������� ���� ������������ ������������ ���������� ������������ �������������� ������������ ���� ������ ���������� �������� ���������� �������� ���������� ���� ������������ ���������� ���� ������ ���������� ��������'", - "replace text[787:816] --> decoded_text[1419:1473] 'عدا مصلحة اليمن الواحد الموحد' --> '������ ���������� ���������� ������������ ������������'", - "replace text[819:884] --> decoded_text[1476:1596] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '���������� �������������� �������� ���������� ���� ���������� ������������������ ���� ���������� �������������� ��������'", - "replace text[886:890] --> decoded_text[1598:1606] 'تردف' --> '��������'", - "replace text[892:964] --> decoded_text[1608:1740] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> '���� ������������ ������������ �������� ���������� �������� ������������ ���� ���������� �������������� ������ ���������� ����������'" - ], - "n_oov_chars": 776, - "oov_ratio": 0.8033126293995859, - "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" - }, - { - "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", - "decoded_text": "������������ �������� ���� ������ �������� ���������� ������������ ���� ������ ����������, ������ ���������� ���������� ���� ���������� ����������, ������ ������������ ���������������� �������� ������ ���������� ���������� �������� �������� ���������������� ����������������, ���� �������������������� ������������������ ���� �������������� ���� ��������������, ���� ���������������� ���������� ���� ���������� ���� �������� ���������������� �������� ���� �������������� �������� �������� �������������� ���������������� �������� ������ �������������� �������������� ���������� ������ �������� �������� ����������..", - "diff": [ - "replace text[0:49] --> decoded_text[0:89] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '������������ �������� ���� ������ �������� ���������� ������������ ���� ������ ����������'", - "replace text[51:81] --> decoded_text[91:146] 'وما شهدته البلد من مواقف عديدة' --> '������ ���������� ���������� ���� ���������� ����������'", - "replace text[83:151] --> decoded_text[148:274] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '������ ������������ ���������������� �������� ������ ���������� ���������� �������� �������� ���������������� ����������������'", - "replace text[153:198] --> decoded_text[276:360] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '���� �������������������� ������������������ ���� �������������� ���� ��������������'", - "replace text[200:337] --> decoded_text[362:613] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '���� ���������������� ���������� ���� ���������� ���� �������� ���������������� �������� ���� �������������� �������� �������� �������������� ���������������� �������� ������ �������������� �������������� ���������� ������ �������� �������� ����������'" - ], - "n_oov_chars": 276, - "oov_ratio": 0.8141592920353983, - "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" - }, - { - "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", - "decoded_text": "���������� ������������ ���������������� ���� ���� ������ ������ ���� ��������.. ���������� ���� ���������� ������ �������� ������������ ������������ ���� �������������� �������������� ������������ ���������������� ������������..", - "diff": [ - "replace text[0:127] --> decoded_text[0:229] 'وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..' --> '���������� ������������ ���������������� ���� ���� ������ ������ ���� ��������.. ���������� ���� ���������� ������ �������� ������������ ������������ ���� �������������� �������������� ������������ ���������������� ������������..'" - ], - "n_oov_chars": 102, - "oov_ratio": 0.8031496062992126, - "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" - }, - { - "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", - "decoded_text": "������ ���������� ���������������� �������������� ���� �������� ��������, ������ ���� ������������ ���� ������ ���������������� ���������������� ���� ���������� ������������ �������������� �������� ���������� ������ ���������� ������ ���������� ������������..", - "diff": [ - "replace text[0:39] --> decoded_text[0:72] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> '������ ���������� ���������������� �������������� ���� �������� ��������'", - "replace text[41:141] --> decoded_text[74:257] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> '������ ���� ������������ ���� ������ ���������������� ���������������� ���� ���������� ������������ �������������� �������� ���������� ������ ���������� ������ ���������� ������������'" - ], - "n_oov_chars": 116, - "oov_ratio": 0.8111888111888111, - "oov_charset": "[\"ف\", \"ه\", \"ل\", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" - }, - { - "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", - "decoded_text": "������ ���������������� ������ ���������� ���� ������������ ������������ ���� ����������������, ������������ ���� ���������������� ������ ���������� ������ �������� �������� �������� �������� �������� ������������ ������������ �������� �������� �������� ������������ �������� ������..", - "diff": [ - "replace text[0:51] --> decoded_text[0:94] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> '������ ���������������� ������ ���������� ���� ������������ ������������ ���� ����������������'", - "replace text[53:155] --> decoded_text[96:282] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> '������������ ���� ���������������� ������ ���������� ������ �������� �������� �������� �������� �������� ������������ ������������ �������� �������� �������� ������������ �������� ������'" - ], - "n_oov_chars": 127, - "oov_ratio": 0.8089171974522293, - "oov_charset": "[\"و\", \"ه\", \"ل\", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "������ ���� ���������� ���� ������������ ���� �������� ������ ���������� �������� ���� ������������ ���� �������� ������.. ���� ���������� ����������- ������ ������ ������������ ������������, ������ ����������, ������ ���������� ������������ �������������� ������ �������� ���� ������������ �������� ������������, ���� ������������ ���������� ������������ ���� �������� ������ �������� ��������������..", - "diff": [ - "replace text[0:67] --> decoded_text[0:120] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> '������ ���� ���������� ���� ������������ ���� �������� ������ ���������� �������� ���� ������������ ���� �������� ������'", - "replace text[70:84] --> decoded_text[123:149] 'أن يتحول اليمن' --> '���� ���������� ����������'", - "replace text[86:107] --> decoded_text[151:190] 'وهو بلد ولاَّد بالخير' --> '������ ������ ������������ ������������'", - "replace text[109:118] --> decoded_text[192:209] 'إلى أطلال' --> '������ ����������'", - "replace text[120:175] --> decoded_text[211:312] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '������ ���������� ������������ �������������� ������ �������� ���� ������������ �������� ������������'", - "replace text[177:224] --> decoded_text[314:400] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> '���� ������������ ���������� ������������ ���� �������� ������ �������� ��������������'" - ], - "n_oov_chars": 176, - "oov_ratio": 0.7787610619469026, - "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" - }, - { - "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", - "decoded_text": "���������� �������� ���� �������������� ������ ������������ ������ ���������� ���������� ���������� �������� ������������ ���� ������������������ ���������������� ��������������, ���� ������������ ������ ������������.. ���������������� ���������������� �������� ������������, ������ ���� ���������� ������������������ ������ ���������� �������� ���������� ������ ���������� ������ ���������������� ���������� ������������ �������������� �������� ���������� �������������� �������������� ���������� ������ ������, ������������ ���������� ������ ���������� ���� �������������������� ���������������� ������ �������� ������ ������������ ������ ���������� ���������� ���������� ���������� ������������ ���� ������������, ���� ������������..��!", - "diff": [ - "replace text[0:96] --> decoded_text[0:177] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '���������� �������� ���� �������������� ������ ������������ ������ ���������� ���������� ���������� �������� ������������ ���� ������������������ ���������������� ��������������'", - "replace text[98:118] --> decoded_text[179:216] 'لم يسلموا ولن يسلموا' --> '���� ������������ ������ ������������'", - "replace text[121:150] --> decoded_text[219:274] 'والأعباء والمتاعب طالت الجميع' --> '���������������� ���������������� �������� ������������'", - "replace text[152:280] --> decoded_text[276:511] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '������ ���� ���������� ������������������ ������ ���������� �������� ���������� ������ ���������� ������ ���������������� ���������� ������������ �������������� �������� ���������� �������������� �������������� ���������� ������ ������'", - "replace text[282:392] --> decoded_text[513:715] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '������������ ���������� ������ ���������� ���� �������������������� ���������������� ������ �������� ������ ������������ ������ ���������� ���������� ���������� ���������� ������������ ���� ������������'", - "replace text[394:403] --> decoded_text[717:734] 'أو أبوظبي' --> '���� ������������'", - "replace text[405:406] --> decoded_text[736:738] '؟' --> '��'" - ], - "n_oov_chars": 332, - "oov_ratio": 0.8157248157248157, - "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" - }, - { - "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", - "decoded_text": "������ ������������ ���������������� �������� �������� ������ �������� ���������� ���� ���������� ������������ ������ �������� �������� ���� �������� ���������� ������������ ������ ���������� �������� ��������������.. ���������� �������� �������� �������������� ���������� �������� �������������� ���� ������ ������ ���������� ������������ �������������� ������ ������ ������ ���������� ������������������ ���� ������������ ������ ���� ��������!!", - "diff": [ - "replace text[0:118] --> decoded_text[0:215] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '������ ������������ ���������������� �������� �������� ������ �������� ���������� ���� ���������� ������������ ������ �������� �������� ���� �������� ���������� ������������ ������ ���������� �������� ��������������'", - "replace text[121:245] --> decoded_text[218:444] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '���������� �������� �������� �������������� ���������� �������� �������������� ���� ������ ������ ���������� ������������ �������������� ������ ������ ������ ���������� ������������������ ���� ������������ ������ ���� ��������'" - ], - "n_oov_chars": 199, - "oov_ratio": 0.805668016194332, - "oov_charset": "[\"و\", \"ه\", \"ل\", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" - }, - { - "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", - "decoded_text": "����������.. ���� ������ ������������ ��������������.. ���� ������ �������������� �������������� ����������, ��������������, ���������� ���������� ����������������.. ���������� �������������� �������� ���������������� ���������������� �������� �������������� �������� ���������� ������ ������ ������, �������� ������������, �������� ������������..", - "diff": [ - "replace text[0:60] --> decoded_text[0:107] 'اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '����������.. ���� ������ ������������ ��������������.. ���� ������ �������������� �������������� ����������'", - "replace text[62:69] --> decoded_text[109:123] 'ومحاصرة' --> '��������������'", - "replace text[71:166] --> decoded_text[125:299] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> '���������� ���������� ����������������.. ���������� �������������� �������� ���������������� ���������������� �������� �������������� �������� ���������� ������ ������ ������'", - "replace text[168:179] --> decoded_text[301:322] 'وصوب الرياض' --> '�������� ������������'", - "replace text[181:194] --> decoded_text[324:347] 'وصوب واشنطن..' --> '�������� ������������..'" - ], - "n_oov_chars": 153, - "oov_ratio": 0.788659793814433, - "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- ������������ / ������ �������� ���������������� - ���������� ����������.. ( 1)", + "diff": [ + "replace text[2:8] --> decoded_text[2:14] 'اللواء' --> '������������'", + "replace text[11:14] --> decoded_text[17:23] 'علي' --> '������'", + "replace text[15:19] --> decoded_text[24:32] 'محمد' --> '��������'", + "replace text[20:28] --> decoded_text[33:49] 'الكحلاني' --> '����������������'", + "replace text[31:36] --> decoded_text[52:62] 'نصيحة' --> '����������'", + "replace text[37:43] --> decoded_text[63:73] 'صادقة ' --> '����������'" + ], + "n_oov_chars": 31, + "oov_ratio": 0.62, + "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "���������� ������������ ��������������.. ���������� ������������ �������� ������ ���������� ���������� ������������ ���������������� ���� �������������� ���������� ��������������, ������ ������������ �������������������� ���������������� ���� 22�������� ���������� 1990��.. ������ ���������� ���� ���������� ���� ���������� �������������� ���������� ���������� ������ ������ �������� ������ �������������� ���� ������������ ������ ������������, ������ ������������ ���� ������������ ������������������, ������ ������������ ���� ������ �������������� ���������������� ���������� ��������������������.. �������� ������ �������������� ���� �������� ������ ���������� ������������ ���� ���������� ������, ������ ���������� �������� ������������ �������� ���������� ������ ���������� ���������� ������ ������������������ ���� ���������� 1990�� ������������ ������������ �������������� ������ ������ ������������ �������������� ���� ����������������, ������������ �������� �������������� ������������ ������ ���������� �������� �������������� ���� ������ ������������ ����������������������.. �������� ������������ ���������������� ������������ �������������� ������ ������������ ������������ �������������� �������� ���� ������������ ������������ ���������� ������������ �������������� ������������ ���� ������ ���������� �������� ���������� �������� ���������� ���� ������������ ���������� ���� ������ ���������� ��������, ������ ���������� ���������� ������������ ������������.. ���������� �������������� �������� ���������� ���� ���������� ������������������ ���� ���������� �������������� �������� (��������) ���� ������������ ������������ �������� ���������� �������� ������������ ���� ���������� �������������� ������ ���������� ����������..", + "diff": [ + "replace text[0:20] --> decoded_text[0:38] 'اليمن جنوبها وشمالها' --> '���������� ������������ ��������������'", + "replace text[23:97] --> decoded_text[41:178] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '���������� ������������ �������� ������ ���������� ���������� ������������ ���������������� ���� �������������� ���������� ��������������'", + "replace text[99:132] --> decoded_text[180:242] 'ومن حياتها الاعتيادية الطبيعية في' --> '������ ������������ �������������������� ���������������� ����'", + "replace text[135:145] --> decoded_text[245:264] 'مايو العام' --> '�������� ����������'", + "replace text[150:151] --> decoded_text[269:271] 'م' --> '��'", + "replace text[154:247] --> decoded_text[274:443] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '������ ���������� ���� ���������� ���� ���������� �������������� ���������� ���������� ������ ������ �������� ������ �������������� ���� ������������ ������ ������������'", + "replace text[249:279] --> decoded_text[445:501] 'ومن اضطراب في نسيجها الاجتماعي' --> '������ ������������ ���� ������������ ������������������'", + "replace text[281:332] --> decoded_text[503:598] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> '������ ������������ ���� ������ �������������� ���������������� ���������� ��������������������'", + "replace text[335:389] --> decoded_text[601:699] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '�������� ������ �������������� ���� �������� ������ ���������� ������������ ���� ���������� ������'", + "replace text[391:462] --> decoded_text[701:831] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> '������ ���������� �������� ������������ �������� ���������� ������ ���������� ���������� ������ ������������������ ���� ����������'", + "replace text[467:525] --> decoded_text[836:943] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '�� ������������ ������������ �������������� ������ ������ ������������ �������������� ���� ����������������'", + "replace text[527:602] --> decoded_text[945:1084] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> '������������ �������� �������������� ������������ ������ ���������� �������� �������������� ���� ������ ������������ ����������������������'", + "replace text[605:785] --> decoded_text[1087:1417] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '�������� ������������ ���������������� ������������ �������������� ������ ������������ ������������ �������������� �������� ���� ������������ ������������ ���������� ������������ �������������� ������������ ���� ������ ���������� �������� ���������� �������� ���������� ���� ������������ ���������� ���� ������ ���������� ��������'", + "replace text[787:816] --> decoded_text[1419:1473] 'عدا مصلحة اليمن الواحد الموحد' --> '������ ���������� ���������� ������������ ������������'", + "replace text[819:884] --> decoded_text[1476:1596] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '���������� �������������� �������� ���������� ���� ���������� ������������������ ���� ���������� �������������� ��������'", + "replace text[886:890] --> decoded_text[1598:1606] 'تردف' --> '��������'", + "replace text[892:964] --> decoded_text[1608:1740] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> '���� ������������ ������������ �������� ���������� �������� ������������ ���� ���������� �������������� ������ ���������� ����������'" + ], + "n_oov_chars": 776, + "oov_ratio": 0.8033126293995859, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "������������ �������� ���� ������ �������� ���������� ������������ ���� ������ ����������, ������ ���������� ���������� ���� ���������� ����������, ������ ������������ ���������������� �������� ������ ���������� ���������� �������� �������� ���������������� ����������������, ���� �������������������� ������������������ ���� �������������� ���� ��������������, ���� ���������������� ���������� ���� ���������� ���� �������� ���������������� �������� ���� �������������� �������� �������� �������������� ���������������� �������� ������ �������������� �������������� ���������� ������ �������� �������� ����������..", + "diff": [ + "replace text[0:49] --> decoded_text[0:89] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '������������ �������� ���� ������ �������� ���������� ������������ ���� ������ ����������'", + "replace text[51:81] --> decoded_text[91:146] 'وما شهدته البلد من مواقف عديدة' --> '������ ���������� ���������� ���� ���������� ����������'", + "replace text[83:151] --> decoded_text[148:274] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '������ ������������ ���������������� �������� ������ ���������� ���������� �������� �������� ���������������� ����������������'", + "replace text[153:198] --> decoded_text[276:360] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '���� �������������������� ������������������ ���� �������������� ���� ��������������'", + "replace text[200:337] --> decoded_text[362:613] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '���� ���������������� ���������� ���� ���������� ���� �������� ���������������� �������� ���� �������������� �������� �������� �������������� ���������������� �������� ������ �������������� �������������� ���������� ������ �������� �������� ����������'" + ], + "n_oov_chars": 276, + "oov_ratio": 0.8141592920353983, + "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "���������� ������������ ���������������� ���� ���� ������ ������ ���� ��������.. ���������� ���� ���������� ������ �������� ������������ ������������ ���� �������������� �������������� ������������ ���������������� ������������..", + "diff": [ + "replace text[0:127] --> decoded_text[0:229] 'وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..' --> '���������� ������������ ���������������� ���� ���� ������ ������ ���� ��������.. ���������� ���� ���������� ������ �������� ������������ ������������ ���� �������������� �������������� ������������ ���������������� ������������..'" + ], + "n_oov_chars": 102, + "oov_ratio": 0.8031496062992126, + "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "������ ���������� ���������������� �������������� ���� �������� ��������, ������ ���� ������������ ���� ������ ���������������� ���������������� ���� ���������� ������������ �������������� �������� ���������� ������ ���������� ������ ���������� ������������..", + "diff": [ + "replace text[0:39] --> decoded_text[0:72] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> '������ ���������� ���������������� �������������� ���� �������� ��������'", + "replace text[41:141] --> decoded_text[74:257] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> '������ ���� ������������ ���� ������ ���������������� ���������������� ���� ���������� ������������ �������������� �������� ���������� ������ ���������� ������ ���������� ������������'" + ], + "n_oov_chars": 116, + "oov_ratio": 0.8111888111888111, + "oov_charset": "[\"ف\", \"ه\", \"ل\", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "������ ���������������� ������ ���������� ���� ������������ ������������ ���� ����������������, ������������ ���� ���������������� ������ ���������� ������ �������� �������� �������� �������� �������� ������������ ������������ �������� �������� �������� ������������ �������� ������..", + "diff": [ + "replace text[0:51] --> decoded_text[0:94] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> '������ ���������������� ������ ���������� ���� ������������ ������������ ���� ����������������'", + "replace text[53:155] --> decoded_text[96:282] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> '������������ ���� ���������������� ������ ���������� ������ �������� �������� �������� �������� �������� ������������ ������������ �������� �������� �������� ������������ �������� ������'" + ], + "n_oov_chars": 127, + "oov_ratio": 0.8089171974522293, + "oov_charset": "[\"و\", \"ه\", \"ل\", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "������ ���� ���������� ���� ������������ ���� �������� ������ ���������� �������� ���� ������������ ���� �������� ������.. ���� ���������� ����������- ������ ������ ������������ ������������, ������ ����������, ������ ���������� ������������ �������������� ������ �������� ���� ������������ �������� ������������, ���� ������������ ���������� ������������ ���� �������� ������ �������� ��������������..", + "diff": [ + "replace text[0:67] --> decoded_text[0:120] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> '������ ���� ���������� ���� ������������ ���� �������� ������ ���������� �������� ���� ������������ ���� �������� ������'", + "replace text[70:84] --> decoded_text[123:149] 'أن يتحول اليمن' --> '���� ���������� ����������'", + "replace text[86:107] --> decoded_text[151:190] 'وهو بلد ولاَّد بالخير' --> '������ ������ ������������ ������������'", + "replace text[109:118] --> decoded_text[192:209] 'إلى أطلال' --> '������ ����������'", + "replace text[120:175] --> decoded_text[211:312] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '������ ���������� ������������ �������������� ������ �������� ���� ������������ �������� ������������'", + "replace text[177:224] --> decoded_text[314:400] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> '���� ������������ ���������� ������������ ���� �������� ������ �������� ��������������'" + ], + "n_oov_chars": 176, + "oov_ratio": 0.7787610619469026, + "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "���������� �������� ���� �������������� ������ ������������ ������ ���������� ���������� ���������� �������� ������������ ���� ������������������ ���������������� ��������������, ���� ������������ ������ ������������.. ���������������� ���������������� �������� ������������, ������ ���� ���������� ������������������ ������ ���������� �������� ���������� ������ ���������� ������ ���������������� ���������� ������������ �������������� �������� ���������� �������������� �������������� ���������� ������ ������, ������������ ���������� ������ ���������� ���� �������������������� ���������������� ������ �������� ������ ������������ ������ ���������� ���������� ���������� ���������� ������������ ���� ������������, ���� ������������..��!", + "diff": [ + "replace text[0:96] --> decoded_text[0:177] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '���������� �������� ���� �������������� ������ ������������ ������ ���������� ���������� ���������� �������� ������������ ���� ������������������ ���������������� ��������������'", + "replace text[98:118] --> decoded_text[179:216] 'لم يسلموا ولن يسلموا' --> '���� ������������ ������ ������������'", + "replace text[121:150] --> decoded_text[219:274] 'والأعباء والمتاعب طالت الجميع' --> '���������������� ���������������� �������� ������������'", + "replace text[152:280] --> decoded_text[276:511] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '������ ���� ���������� ������������������ ������ ���������� �������� ���������� ������ ���������� ������ ���������������� ���������� ������������ �������������� �������� ���������� �������������� �������������� ���������� ������ ������'", + "replace text[282:392] --> decoded_text[513:715] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '������������ ���������� ������ ���������� ���� �������������������� ���������������� ������ �������� ������ ������������ ������ ���������� ���������� ���������� ���������� ������������ ���� ������������'", + "replace text[394:403] --> decoded_text[717:734] 'أو أبوظبي' --> '���� ������������'", + "replace text[405:406] --> decoded_text[736:738] '؟' --> '��'" + ], + "n_oov_chars": 332, + "oov_ratio": 0.8157248157248157, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "������ ������������ ���������������� �������� �������� ������ �������� ���������� ���� ���������� ������������ ������ �������� �������� ���� �������� ���������� ������������ ������ ���������� �������� ��������������.. ���������� �������� �������� �������������� ���������� �������� �������������� ���� ������ ������ ���������� ������������ �������������� ������ ������ ������ ���������� ������������������ ���� ������������ ������ ���� ��������!!", + "diff": [ + "replace text[0:118] --> decoded_text[0:215] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '������ ������������ ���������������� �������� �������� ������ �������� ���������� ���� ���������� ������������ ������ �������� �������� ���� �������� ���������� ������������ ������ ���������� �������� ��������������'", + "replace text[121:245] --> decoded_text[218:444] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '���������� �������� �������� �������������� ���������� �������� �������������� ���� ������ ������ ���������� ������������ �������������� ������ ������ ������ ���������� ������������������ ���� ������������ ������ ���� ��������'" + ], + "n_oov_chars": 199, + "oov_ratio": 0.805668016194332, + "oov_charset": "[\"و\", \"ه\", \"ل\", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "����������.. ���� ������ ������������ ��������������.. ���� ������ �������������� �������������� ����������, ��������������, ���������� ���������� ����������������.. ���������� �������������� �������� ���������������� ���������������� �������� �������������� �������� ���������� ������ ������ ������, �������� ������������, �������� ������������..", + "diff": [ + "replace text[0:60] --> decoded_text[0:107] 'اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '����������.. ���� ������ ������������ ��������������.. ���� ������ �������������� �������������� ����������'", + "replace text[62:69] --> decoded_text[109:123] 'ومحاصرة' --> '��������������'", + "replace text[71:166] --> decoded_text[125:299] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> '���������� ���������� ����������������.. ���������� �������������� �������� ���������������� ���������������� �������� �������������� �������� ���������� ������ ������ ������'", + "replace text[168:179] --> decoded_text[301:322] 'وصوب الرياض' --> '�������� ������������'", + "replace text[181:194] --> decoded_text[324:347] 'وصوب واشنطن..' --> '�������� ������������..'" + ], + "n_oov_chars": 153, + "oov_ratio": 0.788659793814433, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json index d2935afe5e4494894a3145e80899acf8c17906f7..4253c6d61ba3e5ac619db9db0095dd2e466baaca 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json @@ -1,131 +1,131 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die ‖P��ngel-Weihnacht‖ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h��ren. Hier ist im Eintrittspreis von 18,50 ‖ ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f��r die G��ste.", - "diff": [ - "replace text[58:59] --> decoded_text[58:59] '„' --> '‖'", - "replace text[60:61] --> decoded_text[60:62] 'ü' --> '��'", - "replace text[75:76] --> decoded_text[76:77] '“' --> '‖'", - "replace text[159:160] --> decoded_text[160:162] 'ö' --> '��'", - "replace text[202:203] --> decoded_text[204:205] '€' --> '‖'", - "replace text[267:268] --> decoded_text[269:271] 'ü' --> '��'", - "replace text[275:280] --> decoded_text[278:284] 'äste.' --> '��ste.'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.025, - "oov_charset": "[\"„\", \"ü\", \"“\", \"ö\", \"€\", \"ä\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der ‖P��ngel-Weihnacht‖ an.", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] '„' --> '‖'", - "replace text[59:60] --> decoded_text[59:61] 'ü' --> '��'", - "replace text[74:75] --> decoded_text[75:76] '“' --> '‖'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0379746835443038, - "oov_charset": "[\"„\", \"ü\", \"“\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. Die Karten k��nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "diff": [ - "replace text[26:27] --> decoded_text[26:28] 'ö' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.009708737864077669, - "oov_charset": "[\"ö\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "Der Chor w��nscht Ihnen schon jetzt viel Vergn��gen.", - "diff": [ - "replace text[10:11] --> decoded_text[10:12] 'ü' --> '��'", - "replace text[45:46] --> decoded_text[46:48] 'ü' --> '��'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.04, - "oov_charset": "[\"ü\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder ��ber ein auf der Internetseite befindliches Webformular, an den f��r die Verarbeitung Verantwortlichen ��bermittelt. Sollten Sie ��ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf��gen, k��nnen wir die Daten auch von Ihrer ��ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlie��lich zum Zwecke der Durchf��hrung des Bewerbungsverfahrens.", - "diff": [ - "replace text[211:212] --> decoded_text[211:213] 'ü' --> '��'", - "replace text[276:277] --> decoded_text[277:279] 'ü' --> '��'", - "replace text[313:314] --> decoded_text[315:317] 'ü' --> '��'", - "replace text[338:339] --> decoded_text[341:343] 'ü' --> '��'", - "replace text[435:436] --> decoded_text[439:441] 'ü' --> '��'", - "replace text[442:443] --> decoded_text[447:449] 'ö' --> '��'", - "replace text[477:478] --> decoded_text[483:485] 'ö' --> '��'", - "replace text[619:620] --> decoded_text[626:628] 'ß' --> '��'", - "replace text[646:647] --> decoded_text[654:656] 'ü' --> '��'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.01327433628318584, - "oov_charset": "[\"ü\", \"ö\", \"ß\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlie��en, werden die ��bermittelten Daten zum Zwecke der Abwicklung des Besch��ftigungsverh��ltnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel��scht, sofern einer L��schung keine sonstigen berechtigten Interessen des f��r die Verarbeitung Verantwortlichen entgegenstehen.", - "diff": [ - "replace text[61:62] --> decoded_text[61:63] 'ß' --> '��'", - "replace text[77:78] --> decoded_text[78:80] 'ü' --> '��'", - "replace text[132:133] --> decoded_text[134:136] 'ä' --> '��'", - "replace text[145:146] --> decoded_text[148:150] 'ä' --> '��'", - "replace text[316:317] --> decoded_text[320:322] 'ö' --> '��'", - "replace text[337:338] --> decoded_text[342:344] 'ö' --> '��'", - "replace text[390:391] --> decoded_text[396:398] 'ü' --> '��'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.01583710407239819, - "oov_charset": "[\"ß\", \"ü\", \"ä\", \"ö\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf��llung unserer vertraglichen und gesetzlichen Pflichten (wie F��hrungskr��fte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung ��ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben��tigen.", - "diff": [ - "replace text[119:120] --> decoded_text[119:121] 'ü' --> '��'", - "replace text[181:182] --> decoded_text[182:184] 'ü' --> '��'", - "replace text[190:191] --> decoded_text[192:194] 'ä' --> '��'", - "replace text[280:281] --> decoded_text[283:285] 'ü' --> '��'", - "replace text[476:477] --> decoded_text[480:482] 'ö' --> '��'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.010351966873706004, - "oov_charset": "[\"ü\", \"ä\", \"ö\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlie��lich zu Zwecken,", - "diff": [ - "replace text[64:65] --> decoded_text[64:66] 'ß' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012345679012345678, - "oov_charset": "[\"ß\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur Erf��llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im ��ffentlichen Interesse liegt;", - "diff": [ - "replace text[21:22] --> decoded_text[21:23] 'ü' --> '��'", - "replace text[160:161] --> decoded_text[161:163] 'ö' --> '��'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010582010582010581, - "oov_charset": "[\"ü\", \"ö\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh��rden, Auskunfteien, Rechtsanw��lte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "diff": [ - "replace text[98:99] --> decoded_text[98:100] 'ö' --> '��'", - "replace text[128:129] --> decoded_text[129:131] 'ä' --> '��'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"ö\", \"ä\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die ‖P��ngel-Weihnacht‖ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h��ren. Hier ist im Eintrittspreis von 18,50 ‖ ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f��r die G��ste.", + "diff": [ + "replace text[58:59] --> decoded_text[58:59] '„' --> '‖'", + "replace text[60:61] --> decoded_text[60:62] 'ü' --> '��'", + "replace text[75:76] --> decoded_text[76:77] '“' --> '‖'", + "replace text[159:160] --> decoded_text[160:162] 'ö' --> '��'", + "replace text[202:203] --> decoded_text[204:205] '€' --> '‖'", + "replace text[267:268] --> decoded_text[269:271] 'ü' --> '��'", + "replace text[275:280] --> decoded_text[278:284] 'äste.' --> '��ste.'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.025, + "oov_charset": "[\"„\", \"ü\", \"“\", \"ö\", \"€\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der ‖P��ngel-Weihnacht‖ an.", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] '„' --> '‖'", + "replace text[59:60] --> decoded_text[59:61] 'ü' --> '��'", + "replace text[74:75] --> decoded_text[75:76] '“' --> '‖'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0379746835443038, + "oov_charset": "[\"„\", \"ü\", \"“\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. Die Karten k��nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "diff": [ + "replace text[26:27] --> decoded_text[26:28] 'ö' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009708737864077669, + "oov_charset": "[\"ö\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "Der Chor w��nscht Ihnen schon jetzt viel Vergn��gen.", + "diff": [ + "replace text[10:11] --> decoded_text[10:12] 'ü' --> '��'", + "replace text[45:46] --> decoded_text[46:48] 'ü' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04, + "oov_charset": "[\"ü\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder ��ber ein auf der Internetseite befindliches Webformular, an den f��r die Verarbeitung Verantwortlichen ��bermittelt. Sollten Sie ��ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf��gen, k��nnen wir die Daten auch von Ihrer ��ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlie��lich zum Zwecke der Durchf��hrung des Bewerbungsverfahrens.", + "diff": [ + "replace text[211:212] --> decoded_text[211:213] 'ü' --> '��'", + "replace text[276:277] --> decoded_text[277:279] 'ü' --> '��'", + "replace text[313:314] --> decoded_text[315:317] 'ü' --> '��'", + "replace text[338:339] --> decoded_text[341:343] 'ü' --> '��'", + "replace text[435:436] --> decoded_text[439:441] 'ü' --> '��'", + "replace text[442:443] --> decoded_text[447:449] 'ö' --> '��'", + "replace text[477:478] --> decoded_text[483:485] 'ö' --> '��'", + "replace text[619:620] --> decoded_text[626:628] 'ß' --> '��'", + "replace text[646:647] --> decoded_text[654:656] 'ü' --> '��'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.01327433628318584, + "oov_charset": "[\"ü\", \"ö\", \"ß\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlie��en, werden die ��bermittelten Daten zum Zwecke der Abwicklung des Besch��ftigungsverh��ltnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel��scht, sofern einer L��schung keine sonstigen berechtigten Interessen des f��r die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[61:62] --> decoded_text[61:63] 'ß' --> '��'", + "replace text[77:78] --> decoded_text[78:80] 'ü' --> '��'", + "replace text[132:133] --> decoded_text[134:136] 'ä' --> '��'", + "replace text[145:146] --> decoded_text[148:150] 'ä' --> '��'", + "replace text[316:317] --> decoded_text[320:322] 'ö' --> '��'", + "replace text[337:338] --> decoded_text[342:344] 'ö' --> '��'", + "replace text[390:391] --> decoded_text[396:398] 'ü' --> '��'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.01583710407239819, + "oov_charset": "[\"ß\", \"ü\", \"ä\", \"ö\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf��llung unserer vertraglichen und gesetzlichen Pflichten (wie F��hrungskr��fte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung ��ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben��tigen.", + "diff": [ + "replace text[119:120] --> decoded_text[119:121] 'ü' --> '��'", + "replace text[181:182] --> decoded_text[182:184] 'ü' --> '��'", + "replace text[190:191] --> decoded_text[192:194] 'ä' --> '��'", + "replace text[280:281] --> decoded_text[283:285] 'ü' --> '��'", + "replace text[476:477] --> decoded_text[480:482] 'ö' --> '��'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.010351966873706004, + "oov_charset": "[\"ü\", \"ä\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlie��lich zu Zwecken,", + "diff": [ + "replace text[64:65] --> decoded_text[64:66] 'ß' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012345679012345678, + "oov_charset": "[\"ß\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur Erf��llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im ��ffentlichen Interesse liegt;", + "diff": [ + "replace text[21:22] --> decoded_text[21:23] 'ü' --> '��'", + "replace text[160:161] --> decoded_text[161:163] 'ö' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010582010582010581, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh��rden, Auskunfteien, Rechtsanw��lte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "diff": [ + "replace text[98:99] --> decoded_text[98:100] 'ö' --> '��'", + "replace text[128:129] --> decoded_text[129:131] 'ä' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"ö\", \"ä\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json index d56c73e37f0b4d3d4b3e829cd577b2c54b3d2b0a..abcfa0604f276705a92936e59e67c1d9d1cc333e 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json @@ -1,111 +1,111 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby‖s International Realty Canada.", - "diff": [ - "replace text[229:230] --> decoded_text[229:230] '’' --> '‖'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0038461538461538464, - "oov_charset": "[\"’\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "‖Within the city we‖ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,‖ listing agent Christa Frosch of Sotheby‖s tells BuzzBuzzNews.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", - "replace text[19:20] --> decoded_text[19:20] '’' --> '‖'", - "replace text[140:141] --> decoded_text[140:141] '”' --> '‖'", - "replace text[181:182] --> decoded_text[181:182] '’' --> '‖'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.019704433497536946, - "oov_charset": "[\"“\", \"’\", \"”\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law‖s suite.", - "diff": [ - "replace text[380:381] --> decoded_text[380:381] '’' --> '‖'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002570694087403599, - "oov_charset": "[\"’\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "‖We just went to the market yesterday, it‖s private through Sotheby‖s and we‖ve already started to get calls,‖ says Frosch.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", - "replace text[41:42] --> decoded_text[41:42] '’' --> '‖'", - "replace text[67:68] --> decoded_text[67:68] '’' --> '‖'", - "replace text[76:77] --> decoded_text[76:77] '’' --> '‖'", - "replace text[109:110] --> decoded_text[109:110] '”' --> '‖'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.04065040650406504, - "oov_charset": "[\"“\", \"’\", \"”\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "Stay well hydratedーthat means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (‖sips‖) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] '—' --> 'ー'", - "replace text[139:140] --> decoded_text[139:140] '“' --> '‖'", - "replace text[144:145] --> decoded_text[144:145] '”' --> '‖'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.012658227848101266, - "oov_charset": "[\"—\", \"“\", \"”\"]" - }, - { - "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", - "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about ǀ1.50.", - "diff": [ - "replace text[249:250] --> decoded_text[249:250] '£' --> 'ǀ'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"£\"]" - }, - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Read about what EEI’s International Programs has accomplished in the first-half of 2018", - "decoded_text": "Read about what EEI‖s International Programs has accomplished in the first-half of 2018", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] '’' --> '‖'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011494252873563218, - "oov_charset": "[\"’\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby‖s International Realty Canada.", + "diff": [ + "replace text[229:230] --> decoded_text[229:230] '’' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0038461538461538464, + "oov_charset": "[\"’\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "‖Within the city we‖ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,‖ listing agent Christa Frosch of Sotheby‖s tells BuzzBuzzNews.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", + "replace text[19:20] --> decoded_text[19:20] '’' --> '‖'", + "replace text[140:141] --> decoded_text[140:141] '”' --> '‖'", + "replace text[181:182] --> decoded_text[181:182] '’' --> '‖'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.019704433497536946, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law‖s suite.", + "diff": [ + "replace text[380:381] --> decoded_text[380:381] '’' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002570694087403599, + "oov_charset": "[\"’\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "‖We just went to the market yesterday, it‖s private through Sotheby‖s and we‖ve already started to get calls,‖ says Frosch.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", + "replace text[41:42] --> decoded_text[41:42] '’' --> '‖'", + "replace text[67:68] --> decoded_text[67:68] '’' --> '‖'", + "replace text[76:77] --> decoded_text[76:77] '’' --> '‖'", + "replace text[109:110] --> decoded_text[109:110] '”' --> '‖'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04065040650406504, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydratedーthat means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (‖sips‖) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '—' --> 'ー'", + "replace text[139:140] --> decoded_text[139:140] '“' --> '‖'", + "replace text[144:145] --> decoded_text[144:145] '”' --> '‖'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"—\", \"“\", \"”\"]" + }, + { + "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", + "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about ǀ1.50.", + "diff": [ + "replace text[249:250] --> decoded_text[249:250] '£' --> 'ǀ'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"£\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Read about what EEI’s International Programs has accomplished in the first-half of 2018", + "decoded_text": "Read about what EEI‖s International Programs has accomplished in the first-half of 2018", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] '’' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"’\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json index 5d685435351c2d4a619d9fbb68ccd9073e6b76ff..baa995584630640b4283936165db37fedfc1e91d 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json @@ -1,110 +1,110 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizaci��n criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsi��n, robo, sicariato, tr��fico il��cito de drogas.\", explic�� Medina.", - "diff": [ - "replace text[90:91] --> decoded_text[90:92] 'ó' --> '��'", - "replace text[159:160] --> decoded_text[160:162] 'ó' --> '��'", - "replace text[182:183] --> decoded_text[184:186] 'á' --> '��'", - "replace text[190:191] --> decoded_text[193:195] 'í' --> '��'", - "replace text[215:216] --> decoded_text[219:221] 'ó' --> '��'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022321428571428572, - "oov_charset": "[\"ó\", \"á\", \"í\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la organizaci��n criminal.", - "diff": [ - "replace text[66:67] --> decoded_text[66:68] 'ó' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01282051282051282, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 veh��culos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[133:134] --> decoded_text[133:135] 'í' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005376344086021506, - "oov_charset": "[\"í\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. El per��odo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[9:10] --> decoded_text[9:11] 'í' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "‖ Art. 2, Ley 4/1983, de 29 de junio, de fijaci��n de la jornada", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '–' --> '‖'", - "replace text[47:48] --> decoded_text[47:49] 'ó' --> '��'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"–\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. El per��odo o per��odos de su disfrute se fijar�� de com��n", - "diff": [ - "replace text[9:10] --> decoded_text[9:11] 'í' --> '��'", - "replace text[19:20] --> decoded_text[20:22] 'í' --> '��'", - "replace text[48:49] --> decoded_text[50:52] 'á' --> '��'", - "replace text[56:57] --> decoded_text[59:61] 'ú' --> '��'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.06896551724137931, - "oov_charset": "[\"í\", \"á\", \"ú\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificaci��n anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:19] 'ó' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "En caso de desacuerdo entre las partes, la jurisdicci��n competente", - "diff": [ - "replace text[53:54] --> decoded_text[53:55] 'ó' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015151515151515152, - "oov_charset": "[\"ó\"]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "‖ Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '–' --> '‖'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"–\"]" - }, - { - "text": "determinados artículos del Estatuto de los Trabajadores,", - "decoded_text": "determinados art��culos del Estatuto de los Trabajadores,", - "diff": [ - "replace text[16:17] --> decoded_text[16:18] 'í' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017857142857142856, - "oov_charset": "[\"í\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizaci��n criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsi��n, robo, sicariato, tr��fico il��cito de drogas.\", explic�� Medina.", + "diff": [ + "replace text[90:91] --> decoded_text[90:92] 'ó' --> '��'", + "replace text[159:160] --> decoded_text[160:162] 'ó' --> '��'", + "replace text[182:183] --> decoded_text[184:186] 'á' --> '��'", + "replace text[190:191] --> decoded_text[193:195] 'í' --> '��'", + "replace text[215:216] --> decoded_text[219:221] 'ó' --> '��'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022321428571428572, + "oov_charset": "[\"ó\", \"á\", \"í\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la organizaci��n criminal.", + "diff": [ + "replace text[66:67] --> decoded_text[66:68] 'ó' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 veh��culos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[133:134] --> decoded_text[133:135] 'í' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El per��odo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[9:10] --> decoded_text[9:11] 'í' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "‖ Art. 2, Ley 4/1983, de 29 de junio, de fijaci��n de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '–' --> '‖'", + "replace text[47:48] --> decoded_text[47:49] 'ó' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"–\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El per��odo o per��odos de su disfrute se fijar�� de com��n", + "diff": [ + "replace text[9:10] --> decoded_text[9:11] 'í' --> '��'", + "replace text[19:20] --> decoded_text[20:22] 'í' --> '��'", + "replace text[48:49] --> decoded_text[50:52] 'á' --> '��'", + "replace text[56:57] --> decoded_text[59:61] 'ú' --> '��'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06896551724137931, + "oov_charset": "[\"í\", \"á\", \"ú\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificaci��n anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:19] 'ó' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "En caso de desacuerdo entre las partes, la jurisdicci��n competente", + "diff": [ + "replace text[53:54] --> decoded_text[53:55] 'ó' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"ó\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "‖ Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '–' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"–\"]" + }, + { + "text": "determinados artículos del Estatuto de los Trabajadores,", + "decoded_text": "determinados art��culos del Estatuto de los Trabajadores,", + "diff": [ + "replace text[16:17] --> decoded_text[16:18] 'í' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017857142857142856, + "oov_charset": "[\"í\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json index 7423b52025f307dc834cea36016d478faa57829e..1ec44cf3fe782f50e75d168f1f419aeccba5eef7 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json @@ -1,165 +1,165 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "���������������� �������� ����: February 2012", - "diff": [ - "replace text[0:8] --> decoded_text[0:16] 'آشپزخانه' --> '����������������'", - "replace text[9:13] --> decoded_text[17:25] 'کوچک' --> '��������'", - "replace text[14:16] --> decoded_text[26:30] 'من' --> '����'" - ], - "n_oov_chars": 14, - "oov_ratio": 0.45161290322580644, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "���������������� �������� ����", - "diff": [ - "replace text[0:8] --> decoded_text[0:16] 'آشپزخانه' --> '����������������'", - "replace text[9:13] --> decoded_text[17:25] 'کوچک' --> '��������'", - "replace text[14:16] --> decoded_text[26:30] 'من' --> '����'" - ], - "n_oov_chars": 14, - "oov_ratio": 0.875, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": "���������� ��������:2 �������� ������ ��������", - "diff": [ - "replace text[0:5] --> decoded_text[0:10] 'بکینگ' --> '����������'", - "replace text[6:10] --> decoded_text[11:19] 'پودر' --> '��������'", - "replace text[13:17] --> decoded_text[22:30] 'قاشق' --> '��������'", - "replace text[18:21] --> decoded_text[31:37] 'چای' --> '������'", - "replace text[22:26] --> decoded_text[38:46] 'خوری' --> '��������'" - ], - "n_oov_chars": 20, - "oov_ratio": 0.7692307692307693, - "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": "������ ������:2 ������ ��������", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'تخم' --> '������'", - "replace text[4:7] --> decoded_text[7:13] 'مرغ' --> '������'", - "replace text[10:13] --> decoded_text[16:22] 'عدد' --> '������'", - "replace text[14:18] --> decoded_text[23:31] 'بزرگ' --> '��������'" - ], - "n_oov_chars": 13, - "oov_ratio": 0.7222222222222222, - "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": "������:225 ������ ���� �������� �������� ����������", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'کره' --> '������'", - "replace text[8:11] --> decoded_text[11:17] 'گرم' --> '������'", - "replace text[12:14] --> decoded_text[18:22] 'به' --> '����'", - "replace text[15:19] --> decoded_text[23:31] 'دمای' --> '��������'", - "replace text[20:24] --> decoded_text[32:40] 'اتاق' --> '��������'", - "replace text[25:30] --> decoded_text[41:51] 'رسیده' --> '����������'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.7, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": "������:1��1/2 ������������+ 3 �������� ������ ��������", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '������'", - "replace text[5:6] --> decoded_text[8:10] 'و' --> '��'", - "replace text[10:16] --> decoded_text[14:26] 'پیمانه' --> '������������'", - "replace text[20:24] --> decoded_text[30:38] 'قاشق' --> '��������'", - "replace text[25:28] --> decoded_text[39:45] 'غذا' --> '������'", - "replace text[29:33] --> decoded_text[46:54] 'خوری' --> '��������'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.6363636363636364, - "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": "�������� ������������:2 ��1/2�������� ������ ��������", - "diff": [ - "replace text[0:4] --> decoded_text[0:8] 'پودر' --> '��������'", - "replace text[5:11] --> decoded_text[9:21] 'دارچین' --> '������������'", - "replace text[14:15] --> decoded_text[24:26] 'و' --> '��'", - "replace text[18:22] --> decoded_text[29:37] 'قاشق' --> '��������'", - "replace text[23:26] --> decoded_text[38:44] 'چای' --> '������'", - "replace text[27:31] --> decoded_text[45:53] 'خوری' --> '��������'" - ], - "n_oov_chars": 22, - "oov_ratio": 0.7096774193548387, - "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" - }, - { - "text": "فر رو روی 350 درجه فارنهایت روشن کنید", - "decoded_text": "���� ���� ������ 350 �������� ���������������� �������� ��������", - "diff": [ - "replace text[0:2] --> decoded_text[0:4] 'فر' --> '����'", - "replace text[3:5] --> decoded_text[5:9] 'رو' --> '����'", - "replace text[6:9] --> decoded_text[10:16] 'روی' --> '������'", - "replace text[14:18] --> decoded_text[21:29] 'درجه' --> '��������'", - "replace text[19:27] --> decoded_text[30:46] 'فارنهایت' --> '����������������'", - "replace text[28:32] --> decoded_text[47:55] 'روشن' --> '��������'", - "replace text[33:37] --> decoded_text[56:64] 'کنید' --> '��������'" - ], - "n_oov_chars": 27, - "oov_ratio": 0.7297297297297297, - "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]" - }, - { - "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", - "decoded_text": "������ ���� ���� ������ ���� ���������� ���� ���������� �� �������� ������ ������ ���������� ���� �������� �������� ���������� �������� �� ���� ����������", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'کره' --> '������'", - "replace text[4:6] --> decoded_text[7:11] 'رو' --> '����'", - "replace text[7:9] --> decoded_text[12:16] 'با' --> '����'", - "replace text[10:13] --> decoded_text[17:23] 'شکر' --> '������'", - "replace text[14:16] --> decoded_text[24:28] 'هم' --> '����'", - "replace text[17:22] --> decoded_text[29:39] 'بزنید' --> '����������'", - "replace text[23:25] --> decoded_text[40:44] 'تا' --> '����'", - "replace text[26:31] --> decoded_text[45:55] 'یکدست' --> '����������'", - "replace text[32:33] --> decoded_text[56:58] 'و' --> '��'", - "replace text[34:38] --> decoded_text[59:67] 'کرمی' --> '��������'", - "replace text[39:42] --> decoded_text[68:74] 'بشه' --> '������'", - "replace text[43:46] --> decoded_text[75:81] 'تخم' --> '������'", - "replace text[47:52] --> decoded_text[82:92] 'مرغها' --> '����������'", - "replace text[53:55] --> decoded_text[93:97] 'رو' --> '����'", - "replace text[56:60] --> decoded_text[98:106] 'دونه' --> '��������'", - "replace text[61:65] --> decoded_text[107:115] 'دونه' --> '��������'", - "replace text[66:71] --> decoded_text[116:126] 'اضافه' --> '����������'", - "replace text[72:76] --> decoded_text[127:135] 'کنید' --> '��������'", - "replace text[77:78] --> decoded_text[136:138] 'و' --> '��'", - "replace text[79:81] --> decoded_text[139:143] 'هم' --> '����'", - "replace text[82:87] --> decoded_text[144:154] 'بزنید' --> '����������'" - ], - "n_oov_chars": 67, - "oov_ratio": 0.7701149425287356, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" - }, - { - "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", - "decoded_text": "������ �� ���������� �������� �� ������ ���� ������ �������� �� ���������� ��������", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'ارد' --> '������'", - "replace text[4:5] --> decoded_text[7:9] 'و' --> '��'", - "replace text[6:11] --> decoded_text[10:20] 'بکینگ' --> '����������'", - "replace text[12:16] --> decoded_text[21:29] 'پودر' --> '��������'", - "replace text[17:18] --> decoded_text[30:32] 'و' --> '��'", - "replace text[19:22] --> decoded_text[33:39] 'نمک' --> '������'", - "replace text[23:25] --> decoded_text[40:44] 'رو' --> '����'", - "replace text[26:29] --> decoded_text[45:51] 'الک' --> '������'", - "replace text[30:34] --> decoded_text[52:60] 'کنید' --> '��������'", - "replace text[35:36] --> decoded_text[61:63] 'و' --> '��'", - "replace text[37:42] --> decoded_text[64:74] 'اضافه' --> '����������'", - "replace text[43:47] --> decoded_text[75:83] 'کنید' --> '��������'" - ], - "n_oov_chars": 36, - "oov_ratio": 0.7659574468085106, - "oov_charset": "[\"ا\", \"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "���������������� �������� ����: February 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:16] 'آشپزخانه' --> '����������������'", + "replace text[9:13] --> decoded_text[17:25] 'کوچک' --> '��������'", + "replace text[14:16] --> decoded_text[26:30] 'من' --> '����'" + ], + "n_oov_chars": 14, + "oov_ratio": 0.45161290322580644, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "���������������� �������� ����", + "diff": [ + "replace text[0:8] --> decoded_text[0:16] 'آشپزخانه' --> '����������������'", + "replace text[9:13] --> decoded_text[17:25] 'کوچک' --> '��������'", + "replace text[14:16] --> decoded_text[26:30] 'من' --> '����'" + ], + "n_oov_chars": 14, + "oov_ratio": 0.875, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "���������� ��������:2 �������� ������ ��������", + "diff": [ + "replace text[0:5] --> decoded_text[0:10] 'بکینگ' --> '����������'", + "replace text[6:10] --> decoded_text[11:19] 'پودر' --> '��������'", + "replace text[13:17] --> decoded_text[22:30] 'قاشق' --> '��������'", + "replace text[18:21] --> decoded_text[31:37] 'چای' --> '������'", + "replace text[22:26] --> decoded_text[38:46] 'خوری' --> '��������'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.7692307692307693, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "������ ������:2 ������ ��������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'تخم' --> '������'", + "replace text[4:7] --> decoded_text[7:13] 'مرغ' --> '������'", + "replace text[10:13] --> decoded_text[16:22] 'عدد' --> '������'", + "replace text[14:18] --> decoded_text[23:31] 'بزرگ' --> '��������'" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "������:225 ������ ���� �������� �������� ����������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '������'", + "replace text[8:11] --> decoded_text[11:17] 'گرم' --> '������'", + "replace text[12:14] --> decoded_text[18:22] 'به' --> '����'", + "replace text[15:19] --> decoded_text[23:31] 'دمای' --> '��������'", + "replace text[20:24] --> decoded_text[32:40] 'اتاق' --> '��������'", + "replace text[25:30] --> decoded_text[41:51] 'رسیده' --> '����������'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.7, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "������:1��1/2 ������������+ 3 �������� ������ ��������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '������'", + "replace text[5:6] --> decoded_text[8:10] 'و' --> '��'", + "replace text[10:16] --> decoded_text[14:26] 'پیمانه' --> '������������'", + "replace text[20:24] --> decoded_text[30:38] 'قاشق' --> '��������'", + "replace text[25:28] --> decoded_text[39:45] 'غذا' --> '������'", + "replace text[29:33] --> decoded_text[46:54] 'خوری' --> '��������'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.6363636363636364, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "�������� ������������:2 ��1/2�������� ������ ��������", + "diff": [ + "replace text[0:4] --> decoded_text[0:8] 'پودر' --> '��������'", + "replace text[5:11] --> decoded_text[9:21] 'دارچین' --> '������������'", + "replace text[14:15] --> decoded_text[24:26] 'و' --> '��'", + "replace text[18:22] --> decoded_text[29:37] 'قاشق' --> '��������'", + "replace text[23:26] --> decoded_text[38:44] 'چای' --> '������'", + "replace text[27:31] --> decoded_text[45:53] 'خوری' --> '��������'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.7096774193548387, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "���� ���� ������ 350 �������� ���������������� �������� ��������", + "diff": [ + "replace text[0:2] --> decoded_text[0:4] 'فر' --> '����'", + "replace text[3:5] --> decoded_text[5:9] 'رو' --> '����'", + "replace text[6:9] --> decoded_text[10:16] 'روی' --> '������'", + "replace text[14:18] --> decoded_text[21:29] 'درجه' --> '��������'", + "replace text[19:27] --> decoded_text[30:46] 'فارنهایت' --> '����������������'", + "replace text[28:32] --> decoded_text[47:55] 'روشن' --> '��������'", + "replace text[33:37] --> decoded_text[56:64] 'کنید' --> '��������'" + ], + "n_oov_chars": 27, + "oov_ratio": 0.7297297297297297, + "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "������ ���� ���� ������ ���� ���������� ���� ���������� �� �������� ������ ������ ���������� ���� �������� �������� ���������� �������� �� ���� ����������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '������'", + "replace text[4:6] --> decoded_text[7:11] 'رو' --> '����'", + "replace text[7:9] --> decoded_text[12:16] 'با' --> '����'", + "replace text[10:13] --> decoded_text[17:23] 'شکر' --> '������'", + "replace text[14:16] --> decoded_text[24:28] 'هم' --> '����'", + "replace text[17:22] --> decoded_text[29:39] 'بزنید' --> '����������'", + "replace text[23:25] --> decoded_text[40:44] 'تا' --> '����'", + "replace text[26:31] --> decoded_text[45:55] 'یکدست' --> '����������'", + "replace text[32:33] --> decoded_text[56:58] 'و' --> '��'", + "replace text[34:38] --> decoded_text[59:67] 'کرمی' --> '��������'", + "replace text[39:42] --> decoded_text[68:74] 'بشه' --> '������'", + "replace text[43:46] --> decoded_text[75:81] 'تخم' --> '������'", + "replace text[47:52] --> decoded_text[82:92] 'مرغها' --> '����������'", + "replace text[53:55] --> decoded_text[93:97] 'رو' --> '����'", + "replace text[56:60] --> decoded_text[98:106] 'دونه' --> '��������'", + "replace text[61:65] --> decoded_text[107:115] 'دونه' --> '��������'", + "replace text[66:71] --> decoded_text[116:126] 'اضافه' --> '����������'", + "replace text[72:76] --> decoded_text[127:135] 'کنید' --> '��������'", + "replace text[77:78] --> decoded_text[136:138] 'و' --> '��'", + "replace text[79:81] --> decoded_text[139:143] 'هم' --> '����'", + "replace text[82:87] --> decoded_text[144:154] 'بزنید' --> '����������'" + ], + "n_oov_chars": 67, + "oov_ratio": 0.7701149425287356, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "������ �� ���������� �������� �� ������ ���� ������ �������� �� ���������� ��������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'ارد' --> '������'", + "replace text[4:5] --> decoded_text[7:9] 'و' --> '��'", + "replace text[6:11] --> decoded_text[10:20] 'بکینگ' --> '����������'", + "replace text[12:16] --> decoded_text[21:29] 'پودر' --> '��������'", + "replace text[17:18] --> decoded_text[30:32] 'و' --> '��'", + "replace text[19:22] --> decoded_text[33:39] 'نمک' --> '������'", + "replace text[23:25] --> decoded_text[40:44] 'رو' --> '����'", + "replace text[26:29] --> decoded_text[45:51] 'الک' --> '������'", + "replace text[30:34] --> decoded_text[52:60] 'کنید' --> '��������'", + "replace text[35:36] --> decoded_text[61:63] 'و' --> '��'", + "replace text[37:42] --> decoded_text[64:74] 'اضافه' --> '����������'", + "replace text[43:47] --> decoded_text[75:83] 'کنید' --> '��������'" + ], + "n_oov_chars": 36, + "oov_ratio": 0.7659574468085106, + "oov_charset": "[\"ا\", \"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json index 86e9bfbbe50d2b94901e7f5d12e8038f983250e9..fd3f5886168da989e17b10e538cdde211aae999f 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json @@ -1,122 +1,122 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "Bon, comme je ne suis pas le seul �� avoir envisag�� de cr��er ce sujet, je me suis dis qu'il ��tait peut ��tre temps de le commencer.", - "diff": [ - "replace text[34:35] --> decoded_text[34:36] 'à' --> '��'", - "replace text[49:50] --> decoded_text[50:52] 'é' --> '��'", - "replace text[56:57] --> decoded_text[58:60] 'é' --> '��'", - "replace text[91:92] --> decoded_text[94:96] 'é' --> '��'", - "replace text[102:103] --> decoded_text[106:108] 'ê' --> '��'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.03875968992248062, - "oov_charset": "[\"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on r��fl��chira.", - "diff": [ - "replace text[75:76] --> decoded_text[75:77] 'é' --> '��'", - "replace text[78:79] --> decoded_text[79:81] 'é' --> '��'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.023529411764705882, - "oov_charset": "[\"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "Encore une fois, vous n'etes pas oblig�� de vous d��voilez enti��rement", - "diff": [ - "replace text[38:39] --> decoded_text[38:40] 'é' --> '��'", - "replace text[49:50] --> decoded_text[50:52] 'é' --> '��'", - "replace text[61:62] --> decoded_text[63:65] 'è' --> '��'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.04411764705882353, - "oov_charset": "[\"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de m��moire, par exemple si quelqu'un me dit \"tu pourras faire ��a dans la soir��e?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[118:119] --> decoded_text[118:120] 'é' --> '��'", - "replace text[176:194] --> decoded_text[177:196] 'ça dans la soirée ' --> '��a dans la soir��e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.012295081967213115, - "oov_charset": "[\"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma m��re dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien �� branler.", - "diff": [ - "replace text[68:69] --> decoded_text[68:70] 'è' --> '��'", - "replace text[224:225] --> decoded_text[225:227] 'à' --> '��'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008547008547008548, - "oov_charset": "[\"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- Je penses et r��fl��chit tout seul sur des sujets n'ayant rien �� voir avec une situation. Exemple, quand j'attends mes soeurs et ma m��re devant un magasin, je r��fl��chit �� la cr��ation du monde.", - "diff": [ - "replace text[16:17] --> decoded_text[16:18] 'é' --> '��'", - "replace text[19:20] --> decoded_text[20:22] 'é' --> '��'", - "replace text[63:64] --> decoded_text[65:67] 'à' --> '��'", - "replace text[133:134] --> decoded_text[136:138] 'è' --> '��'", - "replace text[160:161] --> decoded_text[164:166] 'é' --> '��'", - "replace text[163:164] --> decoded_text[168:170] 'é' --> '��'", - "replace text[169:177] --> decoded_text[175:185] 'à la cré' --> '�� la cr��'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"é\", \"à\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lyc��e, et ait tendance �� pref��rer ceux que je connais par Internet ou ailleurs qu'au lyc��e", - "diff": [ - "replace text[70:71] --> decoded_text[70:72] 'é' --> '��'", - "replace text[90:91] --> decoded_text[91:93] 'à' --> '��'", - "replace text[96:97] --> decoded_text[98:100] 'é' --> '��'", - "replace text[155:156] --> decoded_text[158:160] 'é' --> '��'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.025477707006369428, - "oov_charset": "[\"é\", \"à\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- Je dois ��tre mentalement instable, par moments", - "diff": [ - "replace text[10:11] --> decoded_text[10:12] 'ê' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- Je n'envoie que tr��s peu de sms et n'appelle personne", - "diff": [ - "replace text[20:21] --> decoded_text[20:22] 'è' --> '��'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01818181818181818, - "oov_charset": "[\"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- J'ai tendance �� voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacit��s de r��flexions, et je sais que je ne dois pas", - "diff": [ - "replace text[16:17] --> decoded_text[16:18] 'à' --> '��'", - "replace text[102:103] --> decoded_text[103:105] 'é' --> '��'", - "replace text[109:110] --> decoded_text[111:113] 'é' --> '��'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.020134228187919462, - "oov_charset": "[\"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul �� avoir envisag�� de cr��er ce sujet, je me suis dis qu'il ��tait peut ��tre temps de le commencer.", + "diff": [ + "replace text[34:35] --> decoded_text[34:36] 'à' --> '��'", + "replace text[49:50] --> decoded_text[50:52] 'é' --> '��'", + "replace text[56:57] --> decoded_text[58:60] 'é' --> '��'", + "replace text[91:92] --> decoded_text[94:96] 'é' --> '��'", + "replace text[102:103] --> decoded_text[106:108] 'ê' --> '��'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.03875968992248062, + "oov_charset": "[\"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on r��fl��chira.", + "diff": [ + "replace text[75:76] --> decoded_text[75:77] 'é' --> '��'", + "replace text[78:79] --> decoded_text[79:81] 'é' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.023529411764705882, + "oov_charset": "[\"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "Encore une fois, vous n'etes pas oblig�� de vous d��voilez enti��rement", + "diff": [ + "replace text[38:39] --> decoded_text[38:40] 'é' --> '��'", + "replace text[49:50] --> decoded_text[50:52] 'é' --> '��'", + "replace text[61:62] --> decoded_text[63:65] 'è' --> '��'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.04411764705882353, + "oov_charset": "[\"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de m��moire, par exemple si quelqu'un me dit \"tu pourras faire ��a dans la soir��e?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[118:119] --> decoded_text[118:120] 'é' --> '��'", + "replace text[176:194] --> decoded_text[177:196] 'ça dans la soirée ' --> '��a dans la soir��e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012295081967213115, + "oov_charset": "[\"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma m��re dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien �� branler.", + "diff": [ + "replace text[68:69] --> decoded_text[68:70] 'è' --> '��'", + "replace text[224:225] --> decoded_text[225:227] 'à' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et r��fl��chit tout seul sur des sujets n'ayant rien �� voir avec une situation. Exemple, quand j'attends mes soeurs et ma m��re devant un magasin, je r��fl��chit �� la cr��ation du monde.", + "diff": [ + "replace text[16:17] --> decoded_text[16:18] 'é' --> '��'", + "replace text[19:20] --> decoded_text[20:22] 'é' --> '��'", + "replace text[63:64] --> decoded_text[65:67] 'à' --> '��'", + "replace text[133:134] --> decoded_text[136:138] 'è' --> '��'", + "replace text[160:161] --> decoded_text[164:166] 'é' --> '��'", + "replace text[163:164] --> decoded_text[168:170] 'é' --> '��'", + "replace text[169:177] --> decoded_text[175:185] 'à la cré' --> '�� la cr��'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"é\", \"à\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lyc��e, et ait tendance �� pref��rer ceux que je connais par Internet ou ailleurs qu'au lyc��e", + "diff": [ + "replace text[70:71] --> decoded_text[70:72] 'é' --> '��'", + "replace text[90:91] --> decoded_text[91:93] 'à' --> '��'", + "replace text[96:97] --> decoded_text[98:100] 'é' --> '��'", + "replace text[155:156] --> decoded_text[158:160] 'é' --> '��'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.025477707006369428, + "oov_charset": "[\"é\", \"à\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois ��tre mentalement instable, par moments", + "diff": [ + "replace text[10:11] --> decoded_text[10:12] 'ê' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- Je n'envoie que tr��s peu de sms et n'appelle personne", + "diff": [ + "replace text[20:21] --> decoded_text[20:22] 'è' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance �� voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacit��s de r��flexions, et je sais que je ne dois pas", + "diff": [ + "replace text[16:17] --> decoded_text[16:18] 'à' --> '��'", + "replace text[102:103] --> decoded_text[103:105] 'é' --> '��'", + "replace text[109:110] --> decoded_text[111:113] 'é' --> '��'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.020134228187919462, + "oov_charset": "[\"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json index 57cf99ec65a1c1513c6b7e9699663eebdc02be77..183ba63a19a948cc33dcf0ab0742e3d494348792 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json @@ -1,112 +1,112 @@ -[ - { - "text": "当の桂は「痛いではないか」と頬を膨らませているが、さりげなく銀時とは距離を作っている。", - "decoded_text": "当の桂は「痛いではないか」と頰を膨らませているが、さりげなく銀時とは距離を作っている。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '頬' --> '頰'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"頬\"]" - }, - { - "text": "きっと、いつも通りの髪型だったのならば、指先に毛先が触れただろう。ざっくばらんに切られた髪が、奴の頬を撫でている。", - "decoded_text": "きっと、いつも通りの髪型だったのならば、指先に毛先が触れただろう。ざっくばらんに切られた髪が、奴の頰を撫でている。", - "diff": [ - "replace text[49:50] --> decoded_text[49:50] '頬' --> '頰'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017543859649122806, - "oov_charset": "[\"頬\"]" - }, - { - "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", - "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\" \"]" - }, - { - "text": "何年か前、私が食事をする場所に困り抜いていたとき、インターネット検索を重ねに重ねて、ようやく見つけることができた——。", - "decoded_text": "何年か前、私が食事をする場所に困り抜いていたとき、インターネット検索を重ねに重ねて、ようやく見つけることができたーー。", - "diff": [ - "replace text[56:58] --> decoded_text[56:58] '——' --> 'ーー'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03389830508474576, - "oov_charset": "[\"—\"]" - }, - { - "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", - "decoded_text": "この���M���は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの���T���、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する���M���をも凌駕するーーすなわち、私見では‖世界最高の自然食レストラン‖ということになる。", - "diff": [ - "replace text[2:3] --> decoded_text[2:5] '《' --> '���'", - "replace text[4:5] --> decoded_text[6:9] '》' --> '���'", - "replace text[72:73] --> decoded_text[76:79] '《' --> '���'", - "replace text[74:75] --> decoded_text[80:83] '》' --> '���'", - "replace text[104:105] --> decoded_text[112:115] '《' --> '���'", - "replace text[106:107] --> decoded_text[116:119] '》' --> '���'", - "replace text[113:115] --> decoded_text[125:127] '——' --> 'ーー'", - "replace text[124:125] --> decoded_text[136:137] '“' --> '‖'", - "replace text[138:139] --> decoded_text[150:151] '”' --> '‖'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.06756756756756757, - "oov_charset": "[\"《\", \"》\", \"—\", \"“\", \"”\"]" - }, - { - "text": "これこそが、いま——単に自然食レストランばかりではない、本来、飲食店のあるべき姿ではないか。", - "decoded_text": "これこそが、いまーー単に自然食レストランばかりではない、本来、飲食店のあるべき姿ではないか。", - "diff": [ - "replace text[8:10] --> decoded_text[8:10] '——' --> 'ーー'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"—\"]" - }, - { - "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", - "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らをーー。", - "diff": [ - "replace text[35:37] --> decoded_text[35:37] '——' --> 'ーー'", - "delete text[38:39] --> decoded_text[38:38] '\\u3000' --> ''" - ], - "n_oov_chars": 3, - "oov_ratio": 0.07692307692307693, - "oov_charset": "[\"—\", \" \"]" - }, - { - "text": "「世界」が、これまでの自分の祖先たちと同様には委譲されるものではないのだという——事と次第によっては、ほどなく滅びるものかもしれないという――。", - "decoded_text": "「世界」が、これまでの自分の祖先たちと同様には委譲されるものではないのだというーー事と次第によっては、ほどなく滅びるものかもしれないという‖‖。", - "diff": [ - "replace text[39:41] --> decoded_text[39:41] '——' --> 'ーー'", - "replace text[69:71] --> decoded_text[69:71] '――' --> '‖‖'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.05555555555555555, - "oov_charset": "[\"—\", \"―\"]" - }, - { - "text": "これが、私の生まれ育った町——87歳の父親と80歳の母親とが、生涯を過ごしてきた町なのだ。", - "decoded_text": "これが、私の生まれ育った町ーー87歳の父親と80歳の母親とが、生涯を過ごしてきた町なのだ。", - "diff": [ - "replace text[13:15] --> decoded_text[13:15] '——' --> 'ーー'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.044444444444444446, - "oov_charset": "[\"—\"]" - }, - { - "text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", - "decoded_text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地‖‖長野県北部の田舎町である。", - "diff": [ - "replace text[44:46] --> decoded_text[44:46] '――' --> '‖‖'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03389830508474576, - "oov_charset": "[\"―\"]" - } +[ + { + "text": "当の桂は「痛いではないか」と頬を膨らませているが、さりげなく銀時とは距離を作っている。", + "decoded_text": "当の桂は「痛いではないか」と頰を膨らませているが、さりげなく銀時とは距離を作っている。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '頬' --> '頰'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"頬\"]" + }, + { + "text": "きっと、いつも通りの髪型だったのならば、指先に毛先が触れただろう。ざっくばらんに切られた髪が、奴の頬を撫でている。", + "decoded_text": "きっと、いつも通りの髪型だったのならば、指先に毛先が触れただろう。ざっくばらんに切られた髪が、奴の頰を撫でている。", + "diff": [ + "replace text[49:50] --> decoded_text[49:50] '頬' --> '頰'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"頬\"]" + }, + { + "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\" \"]" + }, + { + "text": "何年か前、私が食事をする場所に困り抜いていたとき、インターネット検索を重ねに重ねて、ようやく見つけることができた——。", + "decoded_text": "何年か前、私が食事をする場所に困り抜いていたとき、インターネット検索を重ねに重ねて、ようやく見つけることができたーー。", + "diff": [ + "replace text[56:58] --> decoded_text[56:58] '——' --> 'ーー'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03389830508474576, + "oov_charset": "[\"—\"]" + }, + { + "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "decoded_text": "この���M���は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの���T���、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する���M���をも凌駕するーーすなわち、私見では‖世界最高の自然食レストラン‖ということになる。", + "diff": [ + "replace text[2:3] --> decoded_text[2:5] '《' --> '���'", + "replace text[4:5] --> decoded_text[6:9] '》' --> '���'", + "replace text[72:73] --> decoded_text[76:79] '《' --> '���'", + "replace text[74:75] --> decoded_text[80:83] '》' --> '���'", + "replace text[104:105] --> decoded_text[112:115] '《' --> '���'", + "replace text[106:107] --> decoded_text[116:119] '》' --> '���'", + "replace text[113:115] --> decoded_text[125:127] '——' --> 'ーー'", + "replace text[124:125] --> decoded_text[136:137] '“' --> '‖'", + "replace text[138:139] --> decoded_text[150:151] '”' --> '‖'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.06756756756756757, + "oov_charset": "[\"《\", \"》\", \"—\", \"“\", \"”\"]" + }, + { + "text": "これこそが、いま——単に自然食レストランばかりではない、本来、飲食店のあるべき姿ではないか。", + "decoded_text": "これこそが、いまーー単に自然食レストランばかりではない、本来、飲食店のあるべき姿ではないか。", + "diff": [ + "replace text[8:10] --> decoded_text[8:10] '——' --> 'ーー'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"—\"]" + }, + { + "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らをーー。", + "diff": [ + "replace text[35:37] --> decoded_text[35:37] '——' --> 'ーー'", + "delete text[38:39] --> decoded_text[38:38] '\\u3000' --> ''" + ], + "n_oov_chars": 3, + "oov_ratio": 0.07692307692307693, + "oov_charset": "[\"—\", \" \"]" + }, + { + "text": "「世界」が、これまでの自分の祖先たちと同様には委譲されるものではないのだという——事と次第によっては、ほどなく滅びるものかもしれないという――。", + "decoded_text": "「世界」が、これまでの自分の祖先たちと同様には委譲されるものではないのだというーー事と次第によっては、ほどなく滅びるものかもしれないという‖‖。", + "diff": [ + "replace text[39:41] --> decoded_text[39:41] '——' --> 'ーー'", + "replace text[69:71] --> decoded_text[69:71] '――' --> '‖‖'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05555555555555555, + "oov_charset": "[\"—\", \"―\"]" + }, + { + "text": "これが、私の生まれ育った町——87歳の父親と80歳の母親とが、生涯を過ごしてきた町なのだ。", + "decoded_text": "これが、私の生まれ育った町ーー87歳の父親と80歳の母親とが、生涯を過ごしてきた町なのだ。", + "diff": [ + "replace text[13:15] --> decoded_text[13:15] '——' --> 'ーー'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.044444444444444446, + "oov_charset": "[\"—\"]" + }, + { + "text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", + "decoded_text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地‖‖長野県北部の田舎町である。", + "diff": [ + "replace text[44:46] --> decoded_text[44:46] '――' --> '‖‖'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03389830508474576, + "oov_charset": "[\"―\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json index daa220085afadcaf7d2712b3acb48c0eb61666c8..dc327fa930fb4a1b1f2ecfd9f1f5ab33f76b55e3 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json @@ -1,175 +1,175 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ HOME > ������������������", - "diff": [ - "replace text[9:15] --> decoded_text[9:27] '라이브스코어' --> '������������������'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.4, - "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": "������ ������ 15~17��� ��������� 3������ ��������� ������������������������ ���������������.", - "diff": [ - "replace text[0:2] --> decoded_text[0:6] '특히' --> '������'", - "replace text[3:5] --> decoded_text[7:13] '주소' --> '������'", - "replace text[11:12] --> decoded_text[19:22] '번' --> '���'", - "replace text[13:16] --> decoded_text[23:32] '홀에선' --> '���������'", - "replace text[18:20] --> decoded_text[34:40] '연속' --> '������'", - "replace text[21:24] --> decoded_text[41:50] '보기로' --> '���������'", - "replace text[25:33] --> decoded_text[51:75] '황금의제국카지노' --> '������������������������'", - "replace text[34:39] --> decoded_text[76:91] '홀아웃했다' --> '���������������'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "1������'������������-������ ���'��� ��������� ������ ������ 2������ ��������� ������������������������ ������������ ��������� ������ ��������� ���������������.", - "diff": [ - "replace text[1:3] --> decoded_text[1:7] '편인' --> '������'", - "replace text[4:8] --> decoded_text[8:20] '신과함께' --> '������������'", - "replace text[9:11] --> decoded_text[21:27] '죄와' --> '������'", - "replace text[12:13] --> decoded_text[28:31] '벌' --> '���'", - "replace text[14:15] --> decoded_text[32:35] '이' --> '���'", - "replace text[16:19] --> decoded_text[36:45] '천만을' --> '���������'", - "replace text[20:22] --> decoded_text[46:52] '넘은' --> '������'", - "replace text[23:25] --> decoded_text[53:59] '만큼' --> '������'", - "replace text[27:29] --> decoded_text[61:67] '편을' --> '������'", - "replace text[30:33] --> decoded_text[68:77] '기다린' --> '���������'", - "replace text[34:42] --> decoded_text[78:102] '황금의제국카지노' --> '������������������������'", - "replace text[43:47] --> decoded_text[103:115] '관객들의' --> '������������'", - "replace text[48:51] --> decoded_text[116:125] '기대와' --> '���������'", - "replace text[52:54] --> decoded_text[126:132] '주소' --> '������'", - "replace text[55:58] --> decoded_text[133:142] '관심은' --> '���������'", - "replace text[59:64] --> decoded_text[143:158] '폭발적이다' --> '���������������'" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": "������������ ������ '��������� ������'��� ��������� ��������� ��������� ������. ��������� ��������� ������������ ��������� ������������������������ ������������ ������������ ���������.", - "diff": [ - "replace text[0:4] --> decoded_text[0:12] '고려해서' --> '������������'", - "replace text[5:7] --> decoded_text[13:19] '주소' --> '������'", - "replace text[9:12] --> decoded_text[21:30] '대체재' --> '���������'", - "replace text[13:15] --> decoded_text[31:37] '일색' --> '������'", - "replace text[16:17] --> decoded_text[38:41] '의' --> '���'", - "replace text[18:21] --> decoded_text[42:51] '분재를' --> '���������'", - "replace text[22:25] --> decoded_text[52:61] '내놓을' --> '���������'", - "replace text[26:29] --> decoded_text[62:71] '위험이' --> '���������'", - "replace text[30:32] --> decoded_text[72:78] '있다' --> '������'", - "replace text[34:37] --> decoded_text[80:89] '문학의' --> '���������'", - "replace text[38:41] --> decoded_text[90:99] '자유를' --> '���������'", - "replace text[42:46] --> decoded_text[100:112] '소설가가' --> '������������'", - "replace text[47:50] --> decoded_text[113:122] '스스로' --> '���������'", - "replace text[51:59] --> decoded_text[123:147] '황금의제국카지노' --> '������������������������'", - "replace text[60:64] --> decoded_text[148:160] '출판사에' --> '������������'", - "replace text[65:69] --> decoded_text[161:173] '상납하는' --> '������������'", - "replace text[70:73] --> decoded_text[174:183] '것이다' --> '���������'" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "������������������ ������ ������������ ������ ���������(22)��� ������������������������ 4������3������(2������ ������) 3������(.246.270.508). ��������� ��������� ������������ ��������� ������������ ������������ ��������� ������.", - "diff": [ - "replace text[0:21] --> decoded_text[0:55] '조시도널슨의 유산 프랭클린 주소 바레토' --> '������������������ ������ ������������ ������ ���������'", - "replace text[25:35] --> decoded_text[59:87] '는 황금의제국카지노' --> '��� ������������������������'", - "replace text[37:39] --> decoded_text[89:95] '타수' --> '������'", - "replace text[40:42] --> decoded_text[96:102] '안타' --> '������'", - "replace text[44:49] --> decoded_text[104:117] '루타 홈런' --> '������ ������'", - "replace text[52:54] --> decoded_text[120:126] '타점' --> '������'", - "delete text[59:60] --> decoded_text[131:131] ' ' --> ''", - "delete text[64:65] --> decoded_text[135:135] ' ' --> ''", - "replace text[72:106] --> decoded_text[142:228] '하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.' --> '��������� ��������� ������������ ��������� ������������ ������������ ��������� ������.'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "������������������ 2������ ������������ ���������. ������ A, B��� 1������ 12���-4���-������������ 3��������� ������������, C, D, ������������������������ E, F��� 1������ ������ 12���-6���-4���-������������ 4��������� ������ ������.", - "diff": [ - "replace text[0:6] --> decoded_text[0:18] '여기서승리한' --> '������������������'", - "replace text[8:19] --> decoded_text[20:49] '팀이 준결승에 오른다' --> '������ ������������ ���������'", - "replace text[21:23] --> decoded_text[51:57] '결국' --> '������'", - "replace text[28:33] --> decoded_text[62:73] '조 1위는' --> '��� 1������'", - "replace text[36:37] --> decoded_text[76:79] '강' --> '���'", - "replace text[39:45] --> decoded_text[81:97] '강-결승으로' --> '���-������������'", - "replace text[47:55] --> decoded_text[99:121] '경기를 치르지만' --> '��������� ������������'", - "replace text[63:71] --> decoded_text[129:153] '황금의제국카지노' --> '������������������������'", - "replace text[76:84] --> decoded_text[158:176] '조 1위는 주소' --> '��� 1������ ������'", - "replace text[87:88] --> decoded_text[179:182] '강' --> '���'", - "replace text[90:91] --> decoded_text[184:187] '강' --> '���'", - "replace text[93:99] --> decoded_text[189:205] '강-결승으로' --> '���-������������'", - "replace text[101:110] --> decoded_text[207:230] '경기를 해야 한다' --> '��������� ������ ������'" - ], - "n_oov_chars": 60, - "oov_ratio": 0.5405405405405406, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": "������������ ��������� ������ ��� ������ ��� ��������������� ���������������. ������������������������ ��������� ��������� ������ ������ ��������� ��� ������������ ��������� ������������ '��������� ��������� 1���'��� ���������������������, ��������������� ������.", - "diff": [ - "replace text[0:30] --> decoded_text[0:76] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '������������ ��������� ������ ��� ������ ��� ��������������� ���������������'", - "replace text[32:74] --> decoded_text[78:186] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는' --> '������������������������ ��������� ��������� ������ ������ ��������� ��� ������������ ��������� ������������'", - "replace text[76:83] --> decoded_text[188:207] '실시간 검색어' --> '��������� ���������'", - "replace text[85:86] --> decoded_text[209:212] '위' --> '���'", - "replace text[87:96] --> decoded_text[213:238] '를 만들어주겠다며' --> '��� ���������������������'", - "replace text[98:106] --> decoded_text[240:262] '통화연결을 했다' --> '��������������� ������'" - ], - "n_oov_chars": 78, - "oov_ratio": 0.7289719626168224, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": "��������������� ������������������������ ������, ������������ ������������ ������ ������ ������������ ������ ������ ������������. ������������ ‖��� ���������‖��� ������ ��������������� ��������� ������������.", - "diff": [ - "replace text[0:17] --> decoded_text[0:47] '하지만이번 황금의제국카지노 시즌' --> '��������������� ������������������������ ������'", - "replace text[19:50] --> decoded_text[49:128] '호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다' --> '������������ ������������ ������ ������ ������������ ������ ������ ������������'", - "replace text[52:83] --> decoded_text[130:207] '호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다' --> '������������ ‖��� ���������‖��� ������ ��������������� ��������� ������������'" - ], - "n_oov_chars": 64, - "oov_ratio": 0.7619047619047619, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": "��������������������������������� ��������������� ������ ��������� ������������������������ ������ ������.", - "diff": [ - "replace text[0:11] --> decoded_text[0:33] '현대캐피탈은삼성화재와' --> '���������������������������������'", - "replace text[12:17] --> decoded_text[34:49] '시범경기를' --> '���������������'", - "replace text[18:20] --> decoded_text[50:56] '위해' --> '������'", - "replace text[21:24] --> decoded_text[57:66] '홍천에' --> '���������'", - "replace text[25:33] --> decoded_text[67:91] '황금의제국카지노' --> '������������������������'", - "replace text[34:36] --> decoded_text[92:98] '주소' --> '������'", - "replace text[37:39] --> decoded_text[99:105] '왔다' --> '������'" - ], - "n_oov_chars": 33, - "oov_ratio": 0.825, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": "��������������� ��������� ������ ������������ ��������� ��� ������������ ������ ������, ������ ��� ������������ ������ ������������ ���������. ������ ��������� ��� ������ ��������� ������ ������ ��������� ������������������������ ���������.", - "diff": [ - "replace text[0:34] --> decoded_text[0:86] '사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데' --> '��������������� ��������� ������ ������������ ��������� ��� ������������ ������ ������'", - "replace text[36:57] --> decoded_text[88:141] '주소 둘 사이에는 어떤 거리낌도 없었다' --> '������ ��� ������������ ������ ������������ ���������'", - "replace text[59:97] --> decoded_text[143:239] '마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다' --> '������ ��������� ��� ������ ��������� ������ ������ ��������� ������������������������ ���������'" - ], - "n_oov_chars": 71, - "oov_ratio": 0.7244897959183674, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ HOME > ������������������", + "diff": [ + "replace text[9:15] --> decoded_text[9:27] '라이브스코어' --> '������������������'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.4, + "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "������ ������ 15~17��� ��������� 3������ ��������� ������������������������ ���������������.", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] '특히' --> '������'", + "replace text[3:5] --> decoded_text[7:13] '주소' --> '������'", + "replace text[11:12] --> decoded_text[19:22] '번' --> '���'", + "replace text[13:16] --> decoded_text[23:32] '홀에선' --> '���������'", + "replace text[18:20] --> decoded_text[34:40] '연속' --> '������'", + "replace text[21:24] --> decoded_text[41:50] '보기로' --> '���������'", + "replace text[25:33] --> decoded_text[51:75] '황금의제국카지노' --> '������������������������'", + "replace text[34:39] --> decoded_text[76:91] '홀아웃했다' --> '���������������'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1������'������������-������ ���'��� ��������� ������ ������ 2������ ��������� ������������������������ ������������ ��������� ������ ��������� ���������������.", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '편인' --> '������'", + "replace text[4:8] --> decoded_text[8:20] '신과함께' --> '������������'", + "replace text[9:11] --> decoded_text[21:27] '죄와' --> '������'", + "replace text[12:13] --> decoded_text[28:31] '벌' --> '���'", + "replace text[14:15] --> decoded_text[32:35] '이' --> '���'", + "replace text[16:19] --> decoded_text[36:45] '천만을' --> '���������'", + "replace text[20:22] --> decoded_text[46:52] '넘은' --> '������'", + "replace text[23:25] --> decoded_text[53:59] '만큼' --> '������'", + "replace text[27:29] --> decoded_text[61:67] '편을' --> '������'", + "replace text[30:33] --> decoded_text[68:77] '기다린' --> '���������'", + "replace text[34:42] --> decoded_text[78:102] '황금의제국카지노' --> '������������������������'", + "replace text[43:47] --> decoded_text[103:115] '관객들의' --> '������������'", + "replace text[48:51] --> decoded_text[116:125] '기대와' --> '���������'", + "replace text[52:54] --> decoded_text[126:132] '주소' --> '������'", + "replace text[55:58] --> decoded_text[133:142] '관심은' --> '���������'", + "replace text[59:64] --> decoded_text[143:158] '폭발적이다' --> '���������������'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "������������ ������ '��������� ������'��� ��������� ��������� ��������� ������. ��������� ��������� ������������ ��������� ������������������������ ������������ ������������ ���������.", + "diff": [ + "replace text[0:4] --> decoded_text[0:12] '고려해서' --> '������������'", + "replace text[5:7] --> decoded_text[13:19] '주소' --> '������'", + "replace text[9:12] --> decoded_text[21:30] '대체재' --> '���������'", + "replace text[13:15] --> decoded_text[31:37] '일색' --> '������'", + "replace text[16:17] --> decoded_text[38:41] '의' --> '���'", + "replace text[18:21] --> decoded_text[42:51] '분재를' --> '���������'", + "replace text[22:25] --> decoded_text[52:61] '내놓을' --> '���������'", + "replace text[26:29] --> decoded_text[62:71] '위험이' --> '���������'", + "replace text[30:32] --> decoded_text[72:78] '있다' --> '������'", + "replace text[34:37] --> decoded_text[80:89] '문학의' --> '���������'", + "replace text[38:41] --> decoded_text[90:99] '자유를' --> '���������'", + "replace text[42:46] --> decoded_text[100:112] '소설가가' --> '������������'", + "replace text[47:50] --> decoded_text[113:122] '스스로' --> '���������'", + "replace text[51:59] --> decoded_text[123:147] '황금의제국카지노' --> '������������������������'", + "replace text[60:64] --> decoded_text[148:160] '출판사에' --> '������������'", + "replace text[65:69] --> decoded_text[161:173] '상납하는' --> '������������'", + "replace text[70:73] --> decoded_text[174:183] '것이다' --> '���������'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "������������������ ������ ������������ ������ ���������(22)��� ������������������������ 4������3������(2������ ������) 3������(.246.270.508). ��������� ��������� ������������ ��������� ������������ ������������ ��������� ������.", + "diff": [ + "replace text[0:21] --> decoded_text[0:55] '조시도널슨의 유산 프랭클린 주소 바레토' --> '������������������ ������ ������������ ������ ���������'", + "replace text[25:35] --> decoded_text[59:87] '는 황금의제국카지노' --> '��� ������������������������'", + "replace text[37:39] --> decoded_text[89:95] '타수' --> '������'", + "replace text[40:42] --> decoded_text[96:102] '안타' --> '������'", + "replace text[44:49] --> decoded_text[104:117] '루타 홈런' --> '������ ������'", + "replace text[52:54] --> decoded_text[120:126] '타점' --> '������'", + "delete text[59:60] --> decoded_text[131:131] ' ' --> ''", + "delete text[64:65] --> decoded_text[135:135] ' ' --> ''", + "replace text[72:106] --> decoded_text[142:228] '하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.' --> '��������� ��������� ������������ ��������� ������������ ������������ ��������� ������.'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "������������������ 2������ ������������ ���������. ������ A, B��� 1������ 12���-4���-������������ 3��������� ������������, C, D, ������������������������ E, F��� 1������ ������ 12���-6���-4���-������������ 4��������� ������ ������.", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '여기서승리한' --> '������������������'", + "replace text[8:19] --> decoded_text[20:49] '팀이 준결승에 오른다' --> '������ ������������ ���������'", + "replace text[21:23] --> decoded_text[51:57] '결국' --> '������'", + "replace text[28:33] --> decoded_text[62:73] '조 1위는' --> '��� 1������'", + "replace text[36:37] --> decoded_text[76:79] '강' --> '���'", + "replace text[39:45] --> decoded_text[81:97] '강-결승으로' --> '���-������������'", + "replace text[47:55] --> decoded_text[99:121] '경기를 치르지만' --> '��������� ������������'", + "replace text[63:71] --> decoded_text[129:153] '황금의제국카지노' --> '������������������������'", + "replace text[76:84] --> decoded_text[158:176] '조 1위는 주소' --> '��� 1������ ������'", + "replace text[87:88] --> decoded_text[179:182] '강' --> '���'", + "replace text[90:91] --> decoded_text[184:187] '강' --> '���'", + "replace text[93:99] --> decoded_text[189:205] '강-결승으로' --> '���-������������'", + "replace text[101:110] --> decoded_text[207:230] '경기를 해야 한다' --> '��������� ������ ������'" + ], + "n_oov_chars": 60, + "oov_ratio": 0.5405405405405406, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "������������ ��������� ������ ��� ������ ��� ��������������� ���������������. ������������������������ ��������� ��������� ������ ������ ��������� ��� ������������ ��������� ������������ '��������� ��������� 1���'��� ���������������������, ��������������� ������.", + "diff": [ + "replace text[0:30] --> decoded_text[0:76] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '������������ ��������� ������ ��� ������ ��� ��������������� ���������������'", + "replace text[32:74] --> decoded_text[78:186] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는' --> '������������������������ ��������� ��������� ������ ������ ��������� ��� ������������ ��������� ������������'", + "replace text[76:83] --> decoded_text[188:207] '실시간 검색어' --> '��������� ���������'", + "replace text[85:86] --> decoded_text[209:212] '위' --> '���'", + "replace text[87:96] --> decoded_text[213:238] '를 만들어주겠다며' --> '��� ���������������������'", + "replace text[98:106] --> decoded_text[240:262] '통화연결을 했다' --> '��������������� ������'" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "��������������� ������������������������ ������, ������������ ������������ ������ ������ ������������ ������ ������ ������������. ������������ ‖��� ���������‖��� ������ ��������������� ��������� ������������.", + "diff": [ + "replace text[0:17] --> decoded_text[0:47] '하지만이번 황금의제국카지노 시즌' --> '��������������� ������������������������ ������'", + "replace text[19:50] --> decoded_text[49:128] '호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다' --> '������������ ������������ ������ ������ ������������ ������ ������ ������������'", + "replace text[52:83] --> decoded_text[130:207] '호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다' --> '������������ ‖��� ���������‖��� ������ ��������������� ��������� ������������'" + ], + "n_oov_chars": 64, + "oov_ratio": 0.7619047619047619, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "��������������������������������� ��������������� ������ ��������� ������������������������ ������ ������.", + "diff": [ + "replace text[0:11] --> decoded_text[0:33] '현대캐피탈은삼성화재와' --> '���������������������������������'", + "replace text[12:17] --> decoded_text[34:49] '시범경기를' --> '���������������'", + "replace text[18:20] --> decoded_text[50:56] '위해' --> '������'", + "replace text[21:24] --> decoded_text[57:66] '홍천에' --> '���������'", + "replace text[25:33] --> decoded_text[67:91] '황금의제국카지노' --> '������������������������'", + "replace text[34:36] --> decoded_text[92:98] '주소' --> '������'", + "replace text[37:39] --> decoded_text[99:105] '왔다' --> '������'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "��������������� ��������� ������ ������������ ��������� ��� ������������ ������ ������, ������ ��� ������������ ������ ������������ ���������. ������ ��������� ��� ������ ��������� ������ ������ ��������� ������������������������ ���������.", + "diff": [ + "replace text[0:34] --> decoded_text[0:86] '사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데' --> '��������������� ��������� ������ ������������ ��������� ��� ������������ ������ ������'", + "replace text[36:57] --> decoded_text[88:141] '주소 둘 사이에는 어떤 거리낌도 없었다' --> '������ ��� ������������ ������ ������������ ���������'", + "replace text[59:97] --> decoded_text[143:239] '마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다' --> '������ ��������� ��� ������ ��������� ������ ������ ��������� ������������������������ ���������'" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json index b6d5c7d570dfc1287a3c0e180fdf20fc20529f9d..8b574bf5e86ea0ddf87cd472e836747b32441667 100644 --- a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json @@ -1,295 +1,295 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招������什幺仏牌卍(www.suzastampin.com)卡爾・斯利���于2012年加入塔塔汽���公司担任���经理一���,并������公司在印度及国���市���上除捷豹和路虎以外的北务。這位斯坦福大学的���北生,曽任通用汽���在中国合���公司的。近日,���������门���系到山西���奇北京现代汽���4S店得知,店内朗动���型有现���供应,现���段������可享受最高6000元���恵幅度,具体的���型和���格情況请���下表,同時感���趣的朋友還可致电4008112233���3456������:", - "diff": [ - "replace text[2:4] --> decoded_text[2:8] '财带' --> '������'", - "replace text[5:7] --> decoded_text[9:11] '么佛' --> '幺仏'", - "replace text[31:32] --> decoded_text[35:36] '尔' --> '爾'", - "replace text[35:36] --> decoded_text[39:42] '姆' --> '���'", - "replace text[47:48] --> decoded_text[53:56] '车' --> '���'", - "replace text[52:53] --> decoded_text[60:63] '总' --> '���'", - "replace text[56:57] --> decoded_text[66:69] '职' --> '���'", - "replace text[59:61] --> decoded_text[71:77] '负责' --> '������'", - "replace text[68:69] --> decoded_text[84:87] '际' --> '���'", - "replace text[70:71] --> decoded_text[88:91] '场' --> '���'", - "replace text[81:82] --> decoded_text[101:102] '业' --> '北'", - "replace text[84:85] --> decoded_text[104:105] '这' --> '這'", - "replace text[92:94] --> decoded_text[112:116] '毕业' --> '���北'", - "replace text[96:97] --> decoded_text[118:119] '曾' --> '曽'", - "replace text[101:102] --> decoded_text[123:126] '车' --> '���'", - "replace text[106:107] --> decoded_text[130:133] '资' --> '���'", - "replace text[114:117] --> decoded_text[140:149] '编辑专' --> '���������'", - "replace text[118:119] --> decoded_text[150:153] '联' --> '���'", - "replace text[123:124] --> decoded_text[157:160] '传' --> '���'", - "replace text[130:131] --> decoded_text[166:169] '车' --> '���'", - "replace text[141:142] --> decoded_text[179:182] '车' --> '���'", - "replace text[145:146] --> decoded_text[185:188] '车' --> '���'", - "replace text[150:151] --> decoded_text[192:195] '阶' --> '���'", - "replace text[152:154] --> decoded_text[196:202] '购车' --> '������'", - "replace text[164:166] --> decoded_text[212:216] '优惠' --> '���恵'", - "replace text[172:173] --> decoded_text[222:225] '车' --> '���'", - "replace text[175:176] --> decoded_text[227:230] '价' --> '���'", - "replace text[178:179] --> decoded_text[232:233] '况' --> '況'", - "replace text[180:181] --> decoded_text[234:237] '见' --> '���'", - "replace text[185:186] --> decoded_text[241:242] '时' --> '時'", - "replace text[187:188] --> decoded_text[243:246] '兴' --> '���'", - "replace text[192:193] --> decoded_text[250:251] '还' --> '還'", - "replace text[206:207] --> decoded_text[264:267] '转' --> '���'", - "replace text[211:213] --> decoded_text[271:277] '详询' --> '������'" - ], - "n_oov_chars": 43, - "oov_ratio": 0.20093457943925233, - "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"尔\", \"姆\", \"车\", \"总\", \"职\", \"负\", \"责\", \"际\", \"场\", \"业\", \"这\", \"毕\", \"曾\", \"资\", \"编\", \"辑\", \"专\", \"联\", \"传\", \"阶\", \"购\", \"优\", \"惠\", \"价\", \"况\", \"见\", \"时\", \"兴\", \"还\", \"转\", \"详\", \"询\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一箇类似美国大片���幸福���点站���的案例令中国������彼得堡���事官胡���印象深刻。由于行前未能仔���核对������有効期,一对赴俄罗斯旅游的中国夫���因为������過期差点被困在俄罗斯。在胡���的���助下,這对夫���经���了���心动魄的3小時,���于在���机起���前5分���,登上返程的航班。", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '个' --> '箇'", - "replace text[8:9] --> decoded_text[8:11] '《' --> '���'", - "replace text[11:12] --> decoded_text[13:16] '终' --> '���'", - "replace text[14:15] --> decoded_text[18:21] '》' --> '���'", - "replace text[21:23] --> decoded_text[27:33] '驻圣' --> '������'", - "replace text[26:27] --> decoded_text[36:39] '领' --> '���'", - "replace text[30:31] --> decoded_text[42:45] '滨' --> '���'", - "replace text[43:44] --> decoded_text[57:60] '细' --> '���'", - "replace text[46:48] --> decoded_text[62:68] '签证' --> '������'", - "replace text[49:50] --> decoded_text[69:70] '效' --> '効'", - "replace text[64:65] --> decoded_text[84:87] '妇' --> '���'", - "replace text[67:70] --> decoded_text[89:96] '签证过' --> '������過'", - "replace text[82:83] --> decoded_text[108:111] '滨' --> '���'", - "replace text[84:85] --> decoded_text[112:115] '协' --> '���'", - "replace text[88:89] --> decoded_text[118:119] '这' --> '這'", - "replace text[91:92] --> decoded_text[121:124] '妇' --> '���'", - "replace text[93:94] --> decoded_text[125:128] '历' --> '���'", - "replace text[95:96] --> decoded_text[129:132] '惊' --> '���'", - "replace text[102:103] --> decoded_text[138:139] '时' --> '時'", - "replace text[104:105] --> decoded_text[140:143] '终' --> '���'", - "replace text[107:108] --> decoded_text[145:148] '飞' --> '���'", - "replace text[110:111] --> decoded_text[150:153] '飞' --> '���'", - "replace text[114:115] --> decoded_text[156:159] '钟' --> '���'" - ], - "n_oov_chars": 27, - "oov_ratio": 0.21774193548387097, - "oov_charset": "[\"个\", \"《\", \"终\", \"》\", \"驻\", \"圣\", \"领\", \"滨\", \"细\", \"签\", \"证\", \"效\", \"妇\", \"过\", \"协\", \"这\", \"历\", \"惊\", \"时\", \"飞\", \"钟\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招������什幺仏牌���徳江在致辞中表示,中法建交開���了中法両箇���大国家友好笑系的新���元,���立了不同社会制度国家和平共外的新典范,对国���战略格局���生了重大而深���的影響。", - "diff": [ - "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", - "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", - "replace text[7:9] --> decoded_text[11:15] '张德' --> '���徳'", - "replace text[21:23] --> decoded_text[27:31] '开启' --> '開���'", - "replace text[26:29] --> decoded_text[34:39] '两个伟' --> '両箇���'", - "replace text[34:35] --> decoded_text[44:45] '关' --> '笑'", - "replace text[38:39] --> decoded_text[48:51] '纪' --> '���'", - "replace text[41:42] --> decoded_text[53:56] '树' --> '���'", - "replace text[55:56] --> decoded_text[69:70] '处' --> '外'", - "replace text[63:64] --> decoded_text[77:80] '际' --> '���'", - "replace text[68:69] --> decoded_text[84:87] '产' --> '���'", - "replace text[75:76] --> decoded_text[93:96] '远' --> '���'", - "replace text[78:79] --> decoded_text[98:99] '响' --> '響'" - ], - "n_oov_chars": 19, - "oov_ratio": 0.2375, - "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"张\", \"德\", \"开\", \"启\", \"两\", \"个\", \"伟\", \"关\", \"纪\", \"树\", \"处\", \"际\", \"产\", \"远\", \"响\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招������什幺仏牌科斯格罗夫一直供���于������,曽被派往���来西���、越南、英国、印度、美国工作。1999年,他成为���合国���东帝汶部���司令,���督东帝汶向独立国家的過渡。", - "diff": [ - "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", - "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", - "replace text[15:16] --> decoded_text[19:22] '职' --> '���'", - "replace text[17:19] --> decoded_text[23:29] '军队' --> '������'", - "replace text[20:21] --> decoded_text[30:31] '曾' --> '曽'", - "replace text[24:25] --> decoded_text[34:37] '马' --> '���'", - "replace text[27:28] --> decoded_text[39:42] '亚' --> '���'", - "replace text[52:53] --> decoded_text[66:69] '联' --> '���'", - "replace text[55:56] --> decoded_text[71:74] '驻' --> '���'", - "replace text[60:61] --> decoded_text[78:81] '队' --> '���'", - "replace text[64:65] --> decoded_text[84:87] '监' --> '���'", - "replace text[75:76] --> decoded_text[97:98] '过' --> '過'" - ], - "n_oov_chars": 15, - "oov_ratio": 0.19230769230769232, - "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"职\", \"军\", \"队\", \"曾\", \"马\", \"亚\", \"联\", \"驻\", \"监\", \"过\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港���明������消息,在���祝披头士进���美国音乐市���50周年的���念日子,格莱美向両名付存成员:保罗麦卡尼及霊高史���(RingoStarr)���发���身成就���,���得別具意義。为了隆重其事,大会请来金像影后茱莉���‖‖罗伯茨(JuliaRoberts)������介���二人出���,保罗在拍���的鼓声和应下,先献唱新歌���QueenieEye���,然后���到后者演���旧作���Photograph���,������歌迷重温昔日的美好情���。", - "diff": [ - "replace text[9:10] --> decoded_text[9:12] '《' --> '���'", - "replace text[11:13] --> decoded_text[13:19] '报》' --> '������'", - "replace text[17:18] --> decoded_text[23:26] '庆' --> '���'", - "replace text[23:24] --> decoded_text[31:34] '军' --> '���'", - "replace text[29:30] --> decoded_text[39:42] '场' --> '���'", - "replace text[35:36] --> decoded_text[47:50] '纪' --> '���'", - "replace text[44:45] --> decoded_text[58:59] '两' --> '両'", - "replace text[46:47] --> decoded_text[60:61] '仅' --> '付'", - "replace text[57:58] --> decoded_text[71:72] '灵' --> '霊'", - "replace text[60:61] --> decoded_text[74:77] '达' --> '���'", - "replace text[73:74] --> decoded_text[89:92] '颁' --> '���'", - "replace text[75:76] --> decoded_text[93:96] '终' --> '���'", - "replace text[79:82] --> decoded_text[99:106] '奖,显' --> '���,���'", - "replace text[83:84] --> decoded_text[107:108] '别' --> '別'", - "replace text[86:87] --> decoded_text[110:111] '义' --> '義'", - "replace text[105:108] --> decoded_text[129:134] '亚••' --> '���‖‖'", - "replace text[125:127] --> decoded_text[151:157] '负责' --> '������'", - "replace text[128:129] --> decoded_text[158:161] '绍' --> '���'", - "replace text[132:133] --> decoded_text[164:167] '场' --> '���'", - "replace text[138:139] --> decoded_text[172:175] '档' --> '���'", - "replace text[151:152] --> decoded_text[187:190] '《' --> '���'", - "replace text[162:163] --> decoded_text[200:203] '》' --> '���'", - "replace text[166:167] --> decoded_text[206:209] '轮' --> '���'", - "replace text[171:172] --> decoded_text[213:216] '绎' --> '���'", - "replace text[174:175] --> decoded_text[218:221] '《' --> '���'", - "replace text[185:189] --> decoded_text[231:241] '》,带领' --> '���,������'", - "replace text[199:200] --> decoded_text[251:254] '怀' --> '���'" - ], - "n_oov_chars": 34, - "oov_ratio": 0.1691542288557214, - "oov_charset": "[\"《\", \"报\", \"》\", \"庆\", \"军\", \"场\", \"纪\", \"两\", \"仅\", \"灵\", \"达\", \"颁\", \"终\", \"奖\", \"显\", \"别\", \"义\", \"亚\", \"•\", \"负\", \"责\", \"绍\", \"档\", \"轮\", \"绎\", \"带\", \"领\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "仏牌������里有���到���目的地后,���者全程的���������是14元,但司机到���21元,因此,司机������者7元,除去之前支付的1元,���者������6元,還免���乗了本应支付14元的���。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '佛' --> '仏'", - "replace text[2:4] --> decoded_text[2:8] '绳哪' --> '������'", - "replace text[6:7] --> decoded_text[10:13] '卖' --> '���'", - "replace text[8:9] --> decoded_text[14:17] '达' --> '���'", - "replace text[14:15] --> decoded_text[22:25] '记' --> '���'", - "replace text[19:22] --> decoded_text[29:38] '总车费' --> '���������'", - "replace text[31:32] --> decoded_text[47:50] '账' --> '���'", - "replace text[41:43] --> decoded_text[59:65] '给记' --> '������'", - "replace text[57:58] --> decoded_text[79:82] '记' --> '���'", - "replace text[59:61] --> decoded_text[83:89] '净赚' --> '������'", - "replace text[64:65] --> decoded_text[92:93] '还' --> '還'", - "replace text[66:68] --> decoded_text[94:98] '费乘' --> '���乗'", - "replace text[77:78] --> decoded_text[107:110] '车' --> '���'" - ], - "n_oov_chars": 19, - "oov_ratio": 0.24050632911392406, - "oov_charset": "[\"佛\", \"绳\", \"哪\", \"卖\", \"达\", \"记\", \"总\", \"车\", \"费\", \"账\", \"给\", \"净\", \"赚\", \"还\", \"乘\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡爾・斯利���于2012年加入塔塔汽���公司担任���经理一���,并������公司在印度及国���市���上除捷豹和路虎以外的北务。這位斯坦福大学的���北生,曽任通用汽���在中国合���公司的副���裁,上汽通用五菱公司的副���裁以及通用汽���印度公司的���裁。(方���春)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '尔' --> '爾'", - "replace text[5:6] --> decoded_text[5:8] '姆' --> '���'", - "replace text[17:18] --> decoded_text[19:22] '车' --> '���'", - "replace text[22:23] --> decoded_text[26:29] '总' --> '���'", - "replace text[26:27] --> decoded_text[32:35] '职' --> '���'", - "replace text[29:31] --> decoded_text[37:43] '负责' --> '������'", - "replace text[38:39] --> decoded_text[50:53] '际' --> '���'", - "replace text[40:41] --> decoded_text[54:57] '场' --> '���'", - "replace text[51:52] --> decoded_text[67:68] '业' --> '北'", - "replace text[54:55] --> decoded_text[70:71] '这' --> '這'", - "replace text[62:64] --> decoded_text[78:82] '毕业' --> '���北'", - "replace text[66:67] --> decoded_text[84:85] '曾' --> '曽'", - "replace text[71:72] --> decoded_text[89:92] '车' --> '���'", - "replace text[76:77] --> decoded_text[96:99] '资' --> '���'", - "replace text[81:82] --> decoded_text[103:106] '总' --> '���'", - "replace text[94:95] --> decoded_text[118:121] '总' --> '���'", - "replace text[101:102] --> decoded_text[127:130] '车' --> '���'", - "replace text[107:108] --> decoded_text[135:138] '总' --> '���'", - "replace text[112:113] --> decoded_text[142:145] '赵' --> '���'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.1826086956521739, - "oov_charset": "[\"尔\", \"姆\", \"车\", \"总\", \"职\", \"负\", \"责\", \"际\", \"场\", \"业\", \"这\", \"毕\", \"曾\", \"资\", \"赵\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕���演不可能毎部作品都是爾喜���的东西,如果他一時控制不住情���,就���他���吧。他也是人,不是神,人就有自己的脾气。他這次執���春晩,对我也開���:‖老���,我跟爾说了這幺长時间,���爾走2号位,爾非要走1号位,爾想跟我���死���是不是?‖這也是���人。但因为爾非常了解他,他也不一定有���意。", - "diff": [ - "replace text[2:3] --> decoded_text[2:5] '导' --> '���'", - "replace text[7:8] --> decoded_text[9:10] '每' --> '毎'", - "replace text[13:14] --> decoded_text[15:16] '你' --> '爾'", - "replace text[15:16] --> decoded_text[17:20] '欢' --> '���'", - "replace text[24:25] --> decoded_text[28:29] '时' --> '時'", - "replace text[30:31] --> decoded_text[34:37] '绪' --> '���'", - "replace text[33:34] --> decoded_text[39:42] '让' --> '���'", - "replace text[35:36] --> decoded_text[43:46] '骂' --> '���'", - "replace text[57:58] --> decoded_text[67:68] '这' --> '這'", - "replace text[59:61] --> decoded_text[69:73] '执导' --> '執���'", - "replace text[62:63] --> decoded_text[74:75] '晚' --> '晩'", - "replace text[67:69] --> decoded_text[79:83] '开骂' --> '開���'", - "replace text[70:71] --> decoded_text[84:85] '“' --> '‖'", - "replace text[72:73] --> decoded_text[86:89] '毕' --> '���'", - "replace text[76:77] --> decoded_text[92:93] '你' --> '爾'", - "replace text[79:81] --> decoded_text[95:97] '这么' --> '這幺'", - "replace text[82:83] --> decoded_text[98:99] '时' --> '時'", - "replace text[85:87] --> decoded_text[101:105] '让你' --> '���爾'", - "replace text[92:93] --> decoded_text[110:111] '你' --> '爾'", - "replace text[100:101] --> decoded_text[118:119] '你' --> '爾'", - "replace text[104:105] --> decoded_text[122:125] '较' --> '���'", - "replace text[106:107] --> decoded_text[126:129] '劲' --> '���'", - "replace text[111:113] --> decoded_text[133:135] '”这' --> '‖這'", - "replace text[115:116] --> decoded_text[137:140] '骂' --> '���'", - "replace text[121:122] --> decoded_text[145:146] '你' --> '爾'", - "replace text[134:135] --> decoded_text[158:161] '恶' --> '���'" - ], - "n_oov_chars": 31, - "oov_ratio": 0.22627737226277372, - "oov_charset": "[\"导\", \"每\", \"你\", \"欢\", \"时\", \"绪\", \"让\", \"骂\", \"这\", \"执\", \"晚\", \"开\", \"“\", \"毕\", \"么\", \"较\", \"劲\", \"”\", \"恶\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招������什幺仏牌不過���得多,娜妲也花得多。有媒体���道,教���卡洛斯的年薪高���360万元人民印,李娜毎年的花���是600多万元。用一箇形象的比喩,娜妲毎天一���眼,将近2万元就出去了。", - "diff": [ - "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", - "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", - "replace text[8:10] --> decoded_text[12:16] '过挣' --> '過���'", - "replace text[14:15] --> decoded_text[20:21] '姐' --> '妲'", - "replace text[23:24] --> decoded_text[29:32] '报' --> '���'", - "replace text[27:28] --> decoded_text[35:38] '练' --> '���'", - "replace text[35:36] --> decoded_text[45:48] '达' --> '���'", - "replace text[43:44] --> decoded_text[55:56] '币' --> '印'", - "replace text[47:48] --> decoded_text[59:60] '每' --> '毎'", - "replace text[51:52] --> decoded_text[63:66] '费' --> '���'", - "replace text[62:63] --> decoded_text[76:77] '个' --> '箇'", - "replace text[67:68] --> decoded_text[81:82] '喻' --> '喩'", - "replace text[70:72] --> decoded_text[84:86] '姐每' --> '妲毎'", - "replace text[74:75] --> decoded_text[88:91] '睁' --> '���'" - ], - "n_oov_chars": 18, - "oov_ratio": 0.20689655172413793, - "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"过\", \"挣\", \"姐\", \"报\", \"练\", \"达\", \"币\", \"每\", \"费\", \"个\", \"喻\", \"睁\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "‖金庸的小说������城������里有一箇反派人物‖血刀老祖‖,一般的坏人作坏事都是心虚的,但是這箇人物却作得心安理得,理直气壮,我遇到的這箇的歌就是這样。‖王先生向���者描述经過時第一句话便這样说。原来,昨日王先生在搭出租���時,遇到的的歌不付‖拾金而昧‖,還‖昧‖得理直气壮。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", - "replace text[6:8] --> decoded_text[6:12] '《连' --> '������'", - "replace text[9:11] --> decoded_text[13:19] '诀》' --> '������'", - "replace text[14:15] --> decoded_text[22:23] '个' --> '箇'", - "replace text[19:20] --> decoded_text[27:28] '‘' --> '‖'", - "replace text[24:25] --> decoded_text[32:33] '’' --> '‖'", - "replace text[31:32] --> decoded_text[39:40] '做' --> '作'", - "replace text[42:44] --> decoded_text[50:52] '这个' --> '這箇'", - "replace text[47:48] --> decoded_text[55:56] '做' --> '作'", - "replace text[63:65] --> decoded_text[71:73] '这个' --> '這箇'", - "replace text[66:67] --> decoded_text[74:75] '哥' --> '歌'", - "replace text[69:70] --> decoded_text[77:78] '这' --> '這'", - "replace text[72:73] --> decoded_text[80:81] '”' --> '‖'", - "replace text[77:78] --> decoded_text[85:88] '记' --> '���'", - "replace text[82:84] --> decoded_text[92:94] '过时' --> '過時'", - "replace text[89:90] --> decoded_text[99:100] '这' --> '這'", - "replace text[105:107] --> decoded_text[115:119] '车时' --> '���時'", - "replace text[112:113] --> decoded_text[124:125] '哥' --> '歌'", - "replace text[114:116] --> decoded_text[126:128] '仅“' --> '付‖'", - "replace text[120:121] --> decoded_text[132:133] '”' --> '‖'", - "replace text[122:124] --> decoded_text[134:136] '还“' --> '還‖'", - "replace text[125:126] --> decoded_text[137:138] '”' --> '‖'" - ], - "n_oov_chars": 30, - "oov_ratio": 0.22727272727272727, - "oov_charset": "[\"“\", \"《\", \"连\", \"诀\", \"》\", \"个\", \"‘\", \"’\", \"做\", \"这\", \"哥\", \"”\", \"记\", \"过\", \"时\", \"车\", \"仅\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招������什幺仏牌卍(www.suzastampin.com)卡爾・斯利���于2012年加入塔塔汽���公司担任���经理一���,并������公司在印度及国���市���上除捷豹和路虎以外的北务。這位斯坦福大学的���北生,曽任通用汽���在中国合���公司的。近日,���������门���系到山西���奇北京现代汽���4S店得知,店内朗动���型有现���供应,现���段������可享受最高6000元���恵幅度,具体的���型和���格情況请���下表,同時感���趣的朋友還可致电4008112233���3456������:", + "diff": [ + "replace text[2:4] --> decoded_text[2:8] '财带' --> '������'", + "replace text[5:7] --> decoded_text[9:11] '么佛' --> '幺仏'", + "replace text[31:32] --> decoded_text[35:36] '尔' --> '爾'", + "replace text[35:36] --> decoded_text[39:42] '姆' --> '���'", + "replace text[47:48] --> decoded_text[53:56] '车' --> '���'", + "replace text[52:53] --> decoded_text[60:63] '总' --> '���'", + "replace text[56:57] --> decoded_text[66:69] '职' --> '���'", + "replace text[59:61] --> decoded_text[71:77] '负责' --> '������'", + "replace text[68:69] --> decoded_text[84:87] '际' --> '���'", + "replace text[70:71] --> decoded_text[88:91] '场' --> '���'", + "replace text[81:82] --> decoded_text[101:102] '业' --> '北'", + "replace text[84:85] --> decoded_text[104:105] '这' --> '這'", + "replace text[92:94] --> decoded_text[112:116] '毕业' --> '���北'", + "replace text[96:97] --> decoded_text[118:119] '曾' --> '曽'", + "replace text[101:102] --> decoded_text[123:126] '车' --> '���'", + "replace text[106:107] --> decoded_text[130:133] '资' --> '���'", + "replace text[114:117] --> decoded_text[140:149] '编辑专' --> '���������'", + "replace text[118:119] --> decoded_text[150:153] '联' --> '���'", + "replace text[123:124] --> decoded_text[157:160] '传' --> '���'", + "replace text[130:131] --> decoded_text[166:169] '车' --> '���'", + "replace text[141:142] --> decoded_text[179:182] '车' --> '���'", + "replace text[145:146] --> decoded_text[185:188] '车' --> '���'", + "replace text[150:151] --> decoded_text[192:195] '阶' --> '���'", + "replace text[152:154] --> decoded_text[196:202] '购车' --> '������'", + "replace text[164:166] --> decoded_text[212:216] '优惠' --> '���恵'", + "replace text[172:173] --> decoded_text[222:225] '车' --> '���'", + "replace text[175:176] --> decoded_text[227:230] '价' --> '���'", + "replace text[178:179] --> decoded_text[232:233] '况' --> '況'", + "replace text[180:181] --> decoded_text[234:237] '见' --> '���'", + "replace text[185:186] --> decoded_text[241:242] '时' --> '時'", + "replace text[187:188] --> decoded_text[243:246] '兴' --> '���'", + "replace text[192:193] --> decoded_text[250:251] '还' --> '還'", + "replace text[206:207] --> decoded_text[264:267] '转' --> '���'", + "replace text[211:213] --> decoded_text[271:277] '详询' --> '������'" + ], + "n_oov_chars": 43, + "oov_ratio": 0.20093457943925233, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"尔\", \"姆\", \"车\", \"总\", \"职\", \"负\", \"责\", \"际\", \"场\", \"业\", \"这\", \"毕\", \"曾\", \"资\", \"编\", \"辑\", \"专\", \"联\", \"传\", \"阶\", \"购\", \"优\", \"惠\", \"价\", \"况\", \"见\", \"时\", \"兴\", \"还\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一箇类似美国大片���幸福���点站���的案例令中国������彼得堡���事官胡���印象深刻。由于行前未能仔���核对������有効期,一对赴俄罗斯旅游的中国夫���因为������過期差点被困在俄罗斯。在胡���的���助下,這对夫���经���了���心动魄的3小時,���于在���机起���前5分���,登上返程的航班。", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '个' --> '箇'", + "replace text[8:9] --> decoded_text[8:11] '《' --> '���'", + "replace text[11:12] --> decoded_text[13:16] '终' --> '���'", + "replace text[14:15] --> decoded_text[18:21] '》' --> '���'", + "replace text[21:23] --> decoded_text[27:33] '驻圣' --> '������'", + "replace text[26:27] --> decoded_text[36:39] '领' --> '���'", + "replace text[30:31] --> decoded_text[42:45] '滨' --> '���'", + "replace text[43:44] --> decoded_text[57:60] '细' --> '���'", + "replace text[46:48] --> decoded_text[62:68] '签证' --> '������'", + "replace text[49:50] --> decoded_text[69:70] '效' --> '効'", + "replace text[64:65] --> decoded_text[84:87] '妇' --> '���'", + "replace text[67:70] --> decoded_text[89:96] '签证过' --> '������過'", + "replace text[82:83] --> decoded_text[108:111] '滨' --> '���'", + "replace text[84:85] --> decoded_text[112:115] '协' --> '���'", + "replace text[88:89] --> decoded_text[118:119] '这' --> '這'", + "replace text[91:92] --> decoded_text[121:124] '妇' --> '���'", + "replace text[93:94] --> decoded_text[125:128] '历' --> '���'", + "replace text[95:96] --> decoded_text[129:132] '惊' --> '���'", + "replace text[102:103] --> decoded_text[138:139] '时' --> '時'", + "replace text[104:105] --> decoded_text[140:143] '终' --> '���'", + "replace text[107:108] --> decoded_text[145:148] '飞' --> '���'", + "replace text[110:111] --> decoded_text[150:153] '飞' --> '���'", + "replace text[114:115] --> decoded_text[156:159] '钟' --> '���'" + ], + "n_oov_chars": 27, + "oov_ratio": 0.21774193548387097, + "oov_charset": "[\"个\", \"《\", \"终\", \"》\", \"驻\", \"圣\", \"领\", \"滨\", \"细\", \"签\", \"证\", \"效\", \"妇\", \"过\", \"协\", \"这\", \"历\", \"惊\", \"时\", \"飞\", \"钟\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招������什幺仏牌���徳江在致辞中表示,中法建交開���了中法両箇���大国家友好笑系的新���元,���立了不同社会制度国家和平共外的新典范,对国���战略格局���生了重大而深���的影響。", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", + "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", + "replace text[7:9] --> decoded_text[11:15] '张德' --> '���徳'", + "replace text[21:23] --> decoded_text[27:31] '开启' --> '開���'", + "replace text[26:29] --> decoded_text[34:39] '两个伟' --> '両箇���'", + "replace text[34:35] --> decoded_text[44:45] '关' --> '笑'", + "replace text[38:39] --> decoded_text[48:51] '纪' --> '���'", + "replace text[41:42] --> decoded_text[53:56] '树' --> '���'", + "replace text[55:56] --> decoded_text[69:70] '处' --> '外'", + "replace text[63:64] --> decoded_text[77:80] '际' --> '���'", + "replace text[68:69] --> decoded_text[84:87] '产' --> '���'", + "replace text[75:76] --> decoded_text[93:96] '远' --> '���'", + "replace text[78:79] --> decoded_text[98:99] '响' --> '響'" + ], + "n_oov_chars": 19, + "oov_ratio": 0.2375, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"张\", \"德\", \"开\", \"启\", \"两\", \"个\", \"伟\", \"关\", \"纪\", \"树\", \"处\", \"际\", \"产\", \"远\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招������什幺仏牌科斯格罗夫一直供���于������,曽被派往���来西���、越南、英国、印度、美国工作。1999年,他成为���合国���东帝汶部���司令,���督东帝汶向独立国家的過渡。", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", + "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", + "replace text[15:16] --> decoded_text[19:22] '职' --> '���'", + "replace text[17:19] --> decoded_text[23:29] '军队' --> '������'", + "replace text[20:21] --> decoded_text[30:31] '曾' --> '曽'", + "replace text[24:25] --> decoded_text[34:37] '马' --> '���'", + "replace text[27:28] --> decoded_text[39:42] '亚' --> '���'", + "replace text[52:53] --> decoded_text[66:69] '联' --> '���'", + "replace text[55:56] --> decoded_text[71:74] '驻' --> '���'", + "replace text[60:61] --> decoded_text[78:81] '队' --> '���'", + "replace text[64:65] --> decoded_text[84:87] '监' --> '���'", + "replace text[75:76] --> decoded_text[97:98] '过' --> '過'" + ], + "n_oov_chars": 15, + "oov_ratio": 0.19230769230769232, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"职\", \"军\", \"队\", \"曾\", \"马\", \"亚\", \"联\", \"驻\", \"监\", \"过\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港���明������消息,在���祝披头士进���美国音乐市���50周年的���念日子,格莱美向両名付存成员:保罗麦卡尼及霊高史���(RingoStarr)���发���身成就���,���得別具意義。为了隆重其事,大会请来金像影后茱莉���‖‖罗伯茨(JuliaRoberts)������介���二人出���,保罗在拍���的鼓声和应下,先献唱新歌���QueenieEye���,然后���到后者演���旧作���Photograph���,������歌迷重温昔日的美好情���。", + "diff": [ + "replace text[9:10] --> decoded_text[9:12] '《' --> '���'", + "replace text[11:13] --> decoded_text[13:19] '报》' --> '������'", + "replace text[17:18] --> decoded_text[23:26] '庆' --> '���'", + "replace text[23:24] --> decoded_text[31:34] '军' --> '���'", + "replace text[29:30] --> decoded_text[39:42] '场' --> '���'", + "replace text[35:36] --> decoded_text[47:50] '纪' --> '���'", + "replace text[44:45] --> decoded_text[58:59] '两' --> '両'", + "replace text[46:47] --> decoded_text[60:61] '仅' --> '付'", + "replace text[57:58] --> decoded_text[71:72] '灵' --> '霊'", + "replace text[60:61] --> decoded_text[74:77] '达' --> '���'", + "replace text[73:74] --> decoded_text[89:92] '颁' --> '���'", + "replace text[75:76] --> decoded_text[93:96] '终' --> '���'", + "replace text[79:82] --> decoded_text[99:106] '奖,显' --> '���,���'", + "replace text[83:84] --> decoded_text[107:108] '别' --> '別'", + "replace text[86:87] --> decoded_text[110:111] '义' --> '義'", + "replace text[105:108] --> decoded_text[129:134] '亚••' --> '���‖‖'", + "replace text[125:127] --> decoded_text[151:157] '负责' --> '������'", + "replace text[128:129] --> decoded_text[158:161] '绍' --> '���'", + "replace text[132:133] --> decoded_text[164:167] '场' --> '���'", + "replace text[138:139] --> decoded_text[172:175] '档' --> '���'", + "replace text[151:152] --> decoded_text[187:190] '《' --> '���'", + "replace text[162:163] --> decoded_text[200:203] '》' --> '���'", + "replace text[166:167] --> decoded_text[206:209] '轮' --> '���'", + "replace text[171:172] --> decoded_text[213:216] '绎' --> '���'", + "replace text[174:175] --> decoded_text[218:221] '《' --> '���'", + "replace text[185:189] --> decoded_text[231:241] '》,带领' --> '���,������'", + "replace text[199:200] --> decoded_text[251:254] '怀' --> '���'" + ], + "n_oov_chars": 34, + "oov_ratio": 0.1691542288557214, + "oov_charset": "[\"《\", \"报\", \"》\", \"庆\", \"军\", \"场\", \"纪\", \"两\", \"仅\", \"灵\", \"达\", \"颁\", \"终\", \"奖\", \"显\", \"别\", \"义\", \"亚\", \"•\", \"负\", \"责\", \"绍\", \"档\", \"轮\", \"绎\", \"带\", \"领\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "仏牌������里有���到���目的地后,���者全程的���������是14元,但司机到���21元,因此,司机������者7元,除去之前支付的1元,���者������6元,還免���乗了本应支付14元的���。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '佛' --> '仏'", + "replace text[2:4] --> decoded_text[2:8] '绳哪' --> '������'", + "replace text[6:7] --> decoded_text[10:13] '卖' --> '���'", + "replace text[8:9] --> decoded_text[14:17] '达' --> '���'", + "replace text[14:15] --> decoded_text[22:25] '记' --> '���'", + "replace text[19:22] --> decoded_text[29:38] '总车费' --> '���������'", + "replace text[31:32] --> decoded_text[47:50] '账' --> '���'", + "replace text[41:43] --> decoded_text[59:65] '给记' --> '������'", + "replace text[57:58] --> decoded_text[79:82] '记' --> '���'", + "replace text[59:61] --> decoded_text[83:89] '净赚' --> '������'", + "replace text[64:65] --> decoded_text[92:93] '还' --> '還'", + "replace text[66:68] --> decoded_text[94:98] '费乘' --> '���乗'", + "replace text[77:78] --> decoded_text[107:110] '车' --> '���'" + ], + "n_oov_chars": 19, + "oov_ratio": 0.24050632911392406, + "oov_charset": "[\"佛\", \"绳\", \"哪\", \"卖\", \"达\", \"记\", \"总\", \"车\", \"费\", \"账\", \"给\", \"净\", \"赚\", \"还\", \"乘\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡爾・斯利���于2012年加入塔塔汽���公司担任���经理一���,并������公司在印度及国���市���上除捷豹和路虎以外的北务。這位斯坦福大学的���北生,曽任通用汽���在中国合���公司的副���裁,上汽通用五菱公司的副���裁以及通用汽���印度公司的���裁。(方���春)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '尔' --> '爾'", + "replace text[5:6] --> decoded_text[5:8] '姆' --> '���'", + "replace text[17:18] --> decoded_text[19:22] '车' --> '���'", + "replace text[22:23] --> decoded_text[26:29] '总' --> '���'", + "replace text[26:27] --> decoded_text[32:35] '职' --> '���'", + "replace text[29:31] --> decoded_text[37:43] '负责' --> '������'", + "replace text[38:39] --> decoded_text[50:53] '际' --> '���'", + "replace text[40:41] --> decoded_text[54:57] '场' --> '���'", + "replace text[51:52] --> decoded_text[67:68] '业' --> '北'", + "replace text[54:55] --> decoded_text[70:71] '这' --> '這'", + "replace text[62:64] --> decoded_text[78:82] '毕业' --> '���北'", + "replace text[66:67] --> decoded_text[84:85] '曾' --> '曽'", + "replace text[71:72] --> decoded_text[89:92] '车' --> '���'", + "replace text[76:77] --> decoded_text[96:99] '资' --> '���'", + "replace text[81:82] --> decoded_text[103:106] '总' --> '���'", + "replace text[94:95] --> decoded_text[118:121] '总' --> '���'", + "replace text[101:102] --> decoded_text[127:130] '车' --> '���'", + "replace text[107:108] --> decoded_text[135:138] '总' --> '���'", + "replace text[112:113] --> decoded_text[142:145] '赵' --> '���'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.1826086956521739, + "oov_charset": "[\"尔\", \"姆\", \"车\", \"总\", \"职\", \"负\", \"责\", \"际\", \"场\", \"业\", \"这\", \"毕\", \"曾\", \"资\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕���演不可能毎部作品都是爾喜���的东西,如果他一時控制不住情���,就���他���吧。他也是人,不是神,人就有自己的脾气。他這次執���春晩,对我也開���:‖老���,我跟爾说了這幺长時间,���爾走2号位,爾非要走1号位,爾想跟我���死���是不是?‖這也是���人。但因为爾非常了解他,他也不一定有���意。", + "diff": [ + "replace text[2:3] --> decoded_text[2:5] '导' --> '���'", + "replace text[7:8] --> decoded_text[9:10] '每' --> '毎'", + "replace text[13:14] --> decoded_text[15:16] '你' --> '爾'", + "replace text[15:16] --> decoded_text[17:20] '欢' --> '���'", + "replace text[24:25] --> decoded_text[28:29] '时' --> '時'", + "replace text[30:31] --> decoded_text[34:37] '绪' --> '���'", + "replace text[33:34] --> decoded_text[39:42] '让' --> '���'", + "replace text[35:36] --> decoded_text[43:46] '骂' --> '���'", + "replace text[57:58] --> decoded_text[67:68] '这' --> '這'", + "replace text[59:61] --> decoded_text[69:73] '执导' --> '執���'", + "replace text[62:63] --> decoded_text[74:75] '晚' --> '晩'", + "replace text[67:69] --> decoded_text[79:83] '开骂' --> '開���'", + "replace text[70:71] --> decoded_text[84:85] '“' --> '‖'", + "replace text[72:73] --> decoded_text[86:89] '毕' --> '���'", + "replace text[76:77] --> decoded_text[92:93] '你' --> '爾'", + "replace text[79:81] --> decoded_text[95:97] '这么' --> '這幺'", + "replace text[82:83] --> decoded_text[98:99] '时' --> '時'", + "replace text[85:87] --> decoded_text[101:105] '让你' --> '���爾'", + "replace text[92:93] --> decoded_text[110:111] '你' --> '爾'", + "replace text[100:101] --> decoded_text[118:119] '你' --> '爾'", + "replace text[104:105] --> decoded_text[122:125] '较' --> '���'", + "replace text[106:107] --> decoded_text[126:129] '劲' --> '���'", + "replace text[111:113] --> decoded_text[133:135] '”这' --> '‖這'", + "replace text[115:116] --> decoded_text[137:140] '骂' --> '���'", + "replace text[121:122] --> decoded_text[145:146] '你' --> '爾'", + "replace text[134:135] --> decoded_text[158:161] '恶' --> '���'" + ], + "n_oov_chars": 31, + "oov_ratio": 0.22627737226277372, + "oov_charset": "[\"导\", \"每\", \"你\", \"欢\", \"时\", \"绪\", \"让\", \"骂\", \"这\", \"执\", \"晚\", \"开\", \"“\", \"毕\", \"么\", \"较\", \"劲\", \"”\", \"恶\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招������什幺仏牌不過���得多,娜妲也花得多。有媒体���道,教���卡洛斯的年薪高���360万元人民印,李娜毎年的花���是600多万元。用一箇形象的比喩,娜妲毎天一���眼,将近2万元就出去了。", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", + "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", + "replace text[8:10] --> decoded_text[12:16] '过挣' --> '過���'", + "replace text[14:15] --> decoded_text[20:21] '姐' --> '妲'", + "replace text[23:24] --> decoded_text[29:32] '报' --> '���'", + "replace text[27:28] --> decoded_text[35:38] '练' --> '���'", + "replace text[35:36] --> decoded_text[45:48] '达' --> '���'", + "replace text[43:44] --> decoded_text[55:56] '币' --> '印'", + "replace text[47:48] --> decoded_text[59:60] '每' --> '毎'", + "replace text[51:52] --> decoded_text[63:66] '费' --> '���'", + "replace text[62:63] --> decoded_text[76:77] '个' --> '箇'", + "replace text[67:68] --> decoded_text[81:82] '喻' --> '喩'", + "replace text[70:72] --> decoded_text[84:86] '姐每' --> '妲毎'", + "replace text[74:75] --> decoded_text[88:91] '睁' --> '���'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.20689655172413793, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"过\", \"挣\", \"姐\", \"报\", \"练\", \"达\", \"币\", \"每\", \"费\", \"个\", \"喻\", \"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "‖金庸的小说������城������里有一箇反派人物‖血刀老祖‖,一般的坏人作坏事都是心虚的,但是這箇人物却作得心安理得,理直气壮,我遇到的這箇的歌就是這样。‖王先生向���者描述经過時第一句话便這样说。原来,昨日王先生在搭出租���時,遇到的的歌不付‖拾金而昧‖,還‖昧‖得理直气壮。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", + "replace text[6:8] --> decoded_text[6:12] '《连' --> '������'", + "replace text[9:11] --> decoded_text[13:19] '诀》' --> '������'", + "replace text[14:15] --> decoded_text[22:23] '个' --> '箇'", + "replace text[19:20] --> decoded_text[27:28] '‘' --> '‖'", + "replace text[24:25] --> decoded_text[32:33] '’' --> '‖'", + "replace text[31:32] --> decoded_text[39:40] '做' --> '作'", + "replace text[42:44] --> decoded_text[50:52] '这个' --> '這箇'", + "replace text[47:48] --> decoded_text[55:56] '做' --> '作'", + "replace text[63:65] --> decoded_text[71:73] '这个' --> '這箇'", + "replace text[66:67] --> decoded_text[74:75] '哥' --> '歌'", + "replace text[69:70] --> decoded_text[77:78] '这' --> '這'", + "replace text[72:73] --> decoded_text[80:81] '”' --> '‖'", + "replace text[77:78] --> decoded_text[85:88] '记' --> '���'", + "replace text[82:84] --> decoded_text[92:94] '过时' --> '過時'", + "replace text[89:90] --> decoded_text[99:100] '这' --> '這'", + "replace text[105:107] --> decoded_text[115:119] '车时' --> '���時'", + "replace text[112:113] --> decoded_text[124:125] '哥' --> '歌'", + "replace text[114:116] --> decoded_text[126:128] '仅“' --> '付‖'", + "replace text[120:121] --> decoded_text[132:133] '”' --> '‖'", + "replace text[122:124] --> decoded_text[134:136] '还“' --> '還‖'", + "replace text[125:126] --> decoded_text[137:138] '”' --> '‖'" + ], + "n_oov_chars": 30, + "oov_ratio": 0.22727272727272727, + "oov_charset": "[\"“\", \"《\", \"连\", \"诀\", \"》\", \"个\", \"‘\", \"’\", \"做\", \"这\", \"哥\", \"”\", \"记\", \"过\", \"时\", \"车\", \"仅\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json index 4a97ff2230823a353878e7cdda083198c81f6093..3a4c24cf62620a737509a66b9ea4c60bef3bdf20 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json index 6e7e33df7d8b83b93e7de01ec45695b92cfc8353..f4e4ecdb515292b758d6286e69b570d824d99d60 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "diff": [ - "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "diff": [ - "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json index ce357a48e1dd804b8d8cbbff76aa5145142eb848..23b1a8422585081a0b510b8317d4a07e9a1ae544 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json @@ -1,113 +1,113 @@ -[ - { - "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", - "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", - "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", - "diff": [ - "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", - "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", - "diff": [ - "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", - "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", - "diff": [ - "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", - "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", - "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", - "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", - "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", - "diff": [ - "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", - "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", - "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", - "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", - "diff": [ - "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", - "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", - "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", - "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", - "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", - "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", - "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", - "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json index 0554a90957042a4d5225801b5924055cf53611a3..75baab06b7c8132f9a4b52ca8bca1383747ad540 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", - "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", - "diff": [ - "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", - "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "diff": [ - "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "diff": [ - "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "diff": [ - "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json index 14b218a13ea6cd4cae5eaa9ecca19a0cc5ff06ab..23d1eef70b0f3097d6da175953e465393b412d14 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json @@ -1,213 +1,213 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", - "diff": [ - "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", - "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", - "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", - "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", - "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", - "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", - "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", - "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", - "insert text[120:120] --> decoded_text[127:128] '' --> ' '", - "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", - "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", - "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", - "insert text[199:199] --> decoded_text[208:209] '' --> ' '", - "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", - "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", - "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.08571428571428572, - "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", - "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", - "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", - "insert text[64:64] --> decoded_text[65:66] '' --> ' '", - "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", - "insert text[74:74] --> decoded_text[77:78] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", - "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", - "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", - "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", - "insert text[62:62] --> decoded_text[62:63] '' --> ' '", - "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", - "insert text[66:66] --> decoded_text[67:68] '' --> ' '", - "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", - "insert text[91:91] --> decoded_text[96:97] '' --> ' '", - "insert text[92:92] --> decoded_text[98:99] '' --> ' '", - "insert text[93:93] --> decoded_text[100:101] '' --> ' '", - "insert text[94:94] --> decoded_text[102:103] '' --> ' '", - "insert text[101:101] --> decoded_text[110:111] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.06796116504854369, - "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", - "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", - "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", - "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.12, - "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", - "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", - "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", - "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", - "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", - "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", - "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", - "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", - "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", - "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", - "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", - "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", - "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", - "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", - "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", - "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", - "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" - ], - "n_oov_chars": 41, - "oov_ratio": 0.06047197640117994, - "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", - "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", - "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", - "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", - "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", - "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", - "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", - "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", - "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", - "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", - "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.05429864253393665, - "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", - "diff": [ - "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", - "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", - "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", - "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", - "insert text[176:176] --> decoded_text[176:177] '' --> ' '", - "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", - "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", - "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", - "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", - "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", - "insert text[394:394] --> decoded_text[395:396] '' --> ' '", - "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.053830227743271224, - "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", - "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", - "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", - "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", - "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.07407407407407407, - "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", - "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", - "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", - "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", - "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", - "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", - "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", - "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", - "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", - "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", - "insert text[188:188] --> decoded_text[188:189] '' --> ' '" - ], - "n_oov_chars": 10, - "oov_ratio": 0.05291005291005291, - "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", - "diff": [ - "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", - "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", - "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", - "insert text[87:87] --> decoded_text[87:88] '' --> ' '", - "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", - "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", - "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", - "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", - "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", - "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", - "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", - "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", - "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", - "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", - "insert text[188:188] --> decoded_text[190:191] '' --> ' '", - "insert text[189:189] --> decoded_text[192:193] '' --> ' '" - ], - "n_oov_chars": 13, - "oov_ratio": 0.06842105263157895, - "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", + "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[127:128] '' --> ' '", + "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[208:209] '' --> ' '", + "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.08571428571428572, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "insert text[74:74] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json index 6c12c1388eb6aa809e6330a8e32781424dce53a1..2b710ca03e93e416bfc5d6fd56da62a990a44d97 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json @@ -1,172 +1,172 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", - "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[20:20] --> decoded_text[22:23] '' --> ' '", - "insert text[53:53] --> decoded_text[56:57] '' --> ' '", - "insert text[66:66] --> decoded_text[70:71] '' --> ' '", - "insert text[79:79] --> decoded_text[84:85] '' --> ' '", - "insert text[140:140] --> decoded_text[146:147] '' --> ' '", - "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", - "insert text[181:181] --> decoded_text[188:189] '' --> ' '", - "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", - "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", - "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", - "insert text[381:381] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[42:42] --> decoded_text[44:45] '' --> ' '", - "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", - "insert text[67:67] --> decoded_text[70:71] '' --> ' '", - "insert text[68:68] --> decoded_text[72:73] '' --> ' '", - "insert text[76:76] --> decoded_text[81:82] '' --> ' '", - "insert text[77:77] --> decoded_text[83:84] '' --> ' '", - "insert text[109:109] --> decoded_text[116:117] '' --> ' '", - "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "insert text[18:18] --> decoded_text[18:19] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '", - "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", - "insert text[139:139] --> decoded_text[146:147] '' --> ' '", - "insert text[140:140] --> decoded_text[148:149] '' --> ' '", - "insert text[144:144] --> decoded_text[153:154] '' --> ' '", - "insert text[145:145] --> decoded_text[155:156] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json index a41364ca331616aa48c554033ea4b69ffc857be7..4f68fa613094070d67ebecbb3918e1dd30fad07a 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json @@ -1,131 +1,131 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '", - "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.047619047619047616, - "oov_charset": "[\"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json index a68827fb960b637899cdb30d4e1c80094729f74f..af525f86d6ac7b0a75d19e1c97965ec854a7b123 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json @@ -1,124 +1,124 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "اشپزخانه کوچک من : february 2012", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'", - "insert text[16:16] --> decoded_text[16:17] '' --> ' '", - "replace text[18:19] --> decoded_text[19:20] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.06451612903225806, - "oov_charset": "[\"آ\", \"F\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "اشپزخانه کوچک من", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0625, - "oov_charset": "[\"آ\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": "بکینگ پودر : 2 قاشق چای خوری", - "diff": [ - "insert text[10:10] --> decoded_text[10:11] '' --> ' '", - "insert text[11:11] --> decoded_text[12:13] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": "تخم مرغ : 2 عدد بزرگ", - "diff": [ - "insert text[7:7] --> decoded_text[7:8] '' --> ' '", - "insert text[8:8] --> decoded_text[9:10] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": "کره : 225 گرم به دمای اتاق رسیده", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[5:6] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[5:6] '' --> ' '", - "insert text[7:7] --> decoded_text[9:10] '' --> ' '", - "insert text[8:8] --> decoded_text[11:12] '' --> ' '", - "insert text[16:16] --> decoded_text[20:21] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری", - "diff": [ - "insert text[11:11] --> decoded_text[11:12] '' --> ' '", - "insert text[12:12] --> decoded_text[13:14] '' --> ' '", - "insert text[16:16] --> decoded_text[18:19] '' --> ' '", - "insert text[17:17] --> decoded_text[20:21] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", - "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest", - "diff": [ - "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", - "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", - "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''", - "replace text[79:80] --> decoded_text[78:79] 'F' --> 'f'", - "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''", - "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''", - "replace text[122:123] --> decoded_text[119:120] 'P' --> 'p'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05343511450381679, - "oov_charset": "[\"‏\", \"T\", \"F\", \"‌\", \"P\"]" - }, - { - "text": "برچسب‌ها: شیرینی ها", - "decoded_text": "برچسبها : شیرینی ها", - "diff": [ - "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''", - "insert text[8:8] --> decoded_text[7:8] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.05263157894736842, - "oov_charset": "[\"‌\"]" - }, - { - "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم", - "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[5:6] '' --> ' '", - "insert text[9:9] --> decoded_text[11:12] '' --> ' '", - "insert text[10:10] --> decoded_text[13:14] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "اشپزخانه کوچک من : february 2012", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'", + "insert text[16:16] --> decoded_text[16:17] '' --> ' '", + "replace text[18:19] --> decoded_text[19:20] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.06451612903225806, + "oov_charset": "[\"آ\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "اشپزخانه کوچک من", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0625, + "oov_charset": "[\"آ\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "بکینگ پودر : 2 قاشق چای خوری", + "diff": [ + "insert text[10:10] --> decoded_text[10:11] '' --> ' '", + "insert text[11:11] --> decoded_text[12:13] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "تخم مرغ : 2 عدد بزرگ", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> ' '", + "insert text[8:8] --> decoded_text[9:10] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "کره : 225 گرم به دمای اتاق رسیده", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "insert text[7:7] --> decoded_text[9:10] '' --> ' '", + "insert text[8:8] --> decoded_text[11:12] '' --> ' '", + "insert text[16:16] --> decoded_text[20:21] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری", + "diff": [ + "insert text[11:11] --> decoded_text[11:12] '' --> ' '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "insert text[16:16] --> decoded_text[18:19] '' --> ' '", + "insert text[17:17] --> decoded_text[20:21] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", + "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''", + "replace text[79:80] --> decoded_text[78:79] 'F' --> 'f'", + "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''", + "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''", + "replace text[122:123] --> decoded_text[119:120] 'P' --> 'p'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05343511450381679, + "oov_charset": "[\"‏\", \"T\", \"F\", \"‌\", \"P\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسبها : شیرینی ها", + "diff": [ + "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''", + "insert text[8:8] --> decoded_text[7:8] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم", + "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "insert text[9:9] --> decoded_text[11:12] '' --> ' '", + "insert text[10:10] --> decoded_text[13:14] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json index 6218067701d9ab919c123d9fc6c4dcca52084cd8..69cf70e627f7e679713fd3072a75cf9845a06cc6 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json @@ -1,214 +1,214 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "[UNK] [UNK] から [UNK] か 心 [UNK] たったのて [UNK] 出 [UNK] 、 [UNK] [UNK] [UNK] を [UNK] って 来 ました !", - "diff": [ - "replace text[0:2] --> decoded_text[0:12] '午後' --> '[UNK] [UNK] '", - "replace text[4:6] --> decoded_text[14:23] '雨が' --> ' [UNK] か '", - "replace text[7:9] --> decoded_text[24:32] '配だ' --> ' [UNK] た'", - "replace text[12:14] --> decoded_text[35:43] 'で遠' --> 'て [UNK] '", - "replace text[15:18] --> decoded_text[44:51] 'はせず' --> ' [UNK] '", - "replace text[19:28] --> decoded_text[52:71] '『ふれあいロード』' --> ' [UNK] [UNK] [UNK] '", - "replace text[29:30] --> decoded_text[72:79] '走' --> ' [UNK] '", - "insert text[32:32] --> decoded_text[81:82] '' --> ' '", - "insert text[33:33] --> decoded_text[83:84] '' --> ' '", - "insert text[36:36] --> decoded_text[87:88] '' --> ' '" - ], - "n_oov_chars": 15, - "oov_ratio": 0.40540540540540543, - "oov_charset": "[\"午\", \"後\", \"雨\", \"が\", \"配\", \"だ\", \"で\", \"遠\", \"せ\", \"ず\", \"『\", \"ふ\", \"ド\", \"』\", \"走\"]" - }, - { - "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", - "decoded_text": "[UNK] [UNK] に [UNK] か [UNK] ついてることを [UNK] て [UNK] しることか 出 来 ました [UNK] [UNK] [UNK] [UNK] されてる [UNK] [UNK] 道 を [UNK] [UNK] 世 [UNK] になってるホウリンク [UNK] か [UNK] [UNK] 来 ました 。", - "diff": [ - "replace text[0:2] --> decoded_text[0:12] '確実' --> '[UNK] [UNK] '", - "replace text[3:7] --> decoded_text[13:29] '春が近づ' --> ' [UNK] か [UNK] つ'", - "replace text[13:17] --> decoded_text[35:51] '肌で感じ' --> ' [UNK] て [UNK] し'", - "replace text[20:21] --> decoded_text[54:56] 'が' --> 'か '", - "insert text[22:22] --> decoded_text[57:58] '' --> ' '", - "insert text[23:23] --> decoded_text[59:60] '' --> ' '", - "replace text[27:32] --> decoded_text[64:88] '着々と整備' --> '[UNK] [UNK] [UNK] [UNK] '", - "replace text[36:38] --> decoded_text[92:105] '圏央' --> ' [UNK] [UNK] '", - "insert text[39:39] --> decoded_text[106:107] '' --> ' '", - "replace text[40:45] --> decoded_text[108:121] '越えるとお' --> ' [UNK] [UNK] '", - "replace text[46:47] --> decoded_text[122:129] '話' --> ' [UNK] '", - "replace text[52:53] --> decoded_text[134:135] 'ボ' --> 'ホ'", - "replace text[56:62] --> decoded_text[138:160] 'グ場が見えて' --> 'ク [UNK] か [UNK] [UNK] '", - "insert text[63:63] --> decoded_text[161:162] '' --> ' '", - "insert text[66:66] --> decoded_text[165:166] '' --> ' '" - ], - "n_oov_chars": 26, - "oov_ratio": 0.3880597014925373, - "oov_charset": "[\"確\", \"実\", \"春\", \"が\", \"近\", \"づ\", \"肌\", \"で\", \"感\", \"じ\", \"着\", \"々\", \"整\", \"備\", \"圏\", \"央\", \"越\", \"え\", \"話\", \"ボ\", \"グ\", \"場\", \"見\"]" - }, - { - "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "decoded_text": "[UNK] [UNK] [UNK] 、 [UNK] か [UNK] 中 てトイレに 行 きたくなってしまい 、 [UNK] り 道 にあったケンタに [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[0:4] --> decoded_text[0:18] 'うぅ〜〜' --> '[UNK] [UNK] [UNK] '", - "replace text[5:8] --> decoded_text[19:34] '私が途' --> ' [UNK] か [UNK] '", - "replace text[9:10] --> decoded_text[35:37] 'で' --> ' て'", - "insert text[14:14] --> decoded_text[41:42] '' --> ' '", - "insert text[15:15] --> decoded_text[43:44] '' --> ' '", - "insert text[24:24] --> decoded_text[53:54] '' --> ' '", - "replace text[25:26] --> decoded_text[55:62] '通' --> ' [UNK] '", - "insert text[27:27] --> decoded_text[63:64] '' --> ' '", - "insert text[28:28] --> decoded_text[65:66] '' --> ' '", - "replace text[36:45] --> decoded_text[74:93] '変更しちゃいました' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 11, - "oov_ratio": 0.2391304347826087, - "oov_charset": "[\"ぅ\", \"〜\", \"私\", \"が\", \"途\", \"で\", \"通\", \"変\", \"更\", \"ゃ\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "[UNK] は 、 [UNK] 年 [UNK] 前 [UNK] [UNK] [UNK] の [UNK] [UNK] の [UNK] によ [UNK] く [UNK] ないと 分 からない [UNK] の 小 さな [UNK] を [UNK] つけてたんてす 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '実' --> '[UNK] '", - "insert text[2:2] --> decoded_text[7:8] '' --> ' '", - "replace text[3:4] --> decoded_text[9:16] '1' --> ' [UNK] '", - "replace text[5:6] --> decoded_text[17:24] '程' --> ' [UNK] '", - "replace text[7:12] --> decoded_text[25:44] 'にエルモサ' --> ' [UNK] [UNK] [UNK] '", - "replace text[13:15] --> decoded_text[45:58] '右目' --> ' [UNK] [UNK] '", - "replace text[16:20] --> decoded_text[59:66] '黒目の端' --> ' [UNK] '", - "replace text[22:23] --> decoded_text[68:75] '〜' --> ' [UNK] '", - "replace text[24:25] --> decoded_text[76:83] '見' --> ' [UNK] '", - "insert text[28:28] --> decoded_text[86:87] '' --> ' '", - "insert text[29:29] --> decoded_text[88:89] '' --> ' '", - "replace text[33:34] --> decoded_text[93:100] '程' --> ' [UNK] '", - "insert text[35:35] --> decoded_text[101:102] '' --> ' '", - "insert text[36:36] --> decoded_text[103:104] '' --> ' '", - "replace text[38:39] --> decoded_text[106:113] '斑' --> ' [UNK] '", - "replace text[40:41] --> decoded_text[114:121] '見' --> ' [UNK] '", - "replace text[46:47] --> decoded_text[126:127] 'で' --> 'て'", - "insert text[48:48] --> decoded_text[128:129] '' --> ' '" - ], - "n_oov_chars": 15, - "oov_ratio": 0.30612244897959184, - "oov_charset": "[\"実\", \"1\", \"程\", \"モ\", \"右\", \"目\", \"黒\", \"端\", \"〜\", \"見\", \"斑\", \"で\"]" - }, - { - "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", - "decoded_text": "その 時 [UNK] て [UNK] 生 からはおそらく [UNK] [UNK] [UNK] シストロフィー [UNK] [UNK] [UNK] [UNK] をもらっていました 。", - "diff": [ - "insert text[2:2] --> decoded_text[2:3] '' --> ' '", - "replace text[3:6] --> decoded_text[4:19] '点で先' --> ' [UNK] て [UNK] '", - "insert text[7:7] --> decoded_text[20:21] '' --> ' '", - "replace text[14:18] --> decoded_text[28:48] '『角膜ジ' --> ' [UNK] [UNK] [UNK] シ'", - "replace text[24:33] --> decoded_text[54:79] '』であろうとの診断' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[42:42] --> decoded_text[88:89] '' --> ' '" - ], - "n_oov_chars": 12, - "oov_ratio": 0.27906976744186046, - "oov_charset": "[\"点\", \"で\", \"先\", \"『\", \"角\", \"膜\", \"ジ\", \"』\", \"ろ\", \"診\", \"断\"]" - }, - { - "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", - "decoded_text": "[UNK] [UNK] 合 は1 年 [UNK] [UNK] [UNK] して [UNK] [UNK] 、 [UNK] し 大 [UNK]", - "diff": [ - "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[9:9] --> decoded_text[16:17] '' --> ' '", - "replace text[10:13] --> decoded_text[18:37] '程経過' --> ' [UNK] [UNK] [UNK] '", - "replace text[15:27] --> decoded_text[39:52] '徐々にではあるんですけど' --> ' [UNK] [UNK] '", - "replace text[28:29] --> decoded_text[53:60] '少' --> ' [UNK] '", - "insert text[30:30] --> decoded_text[61:62] '' --> ' '", - "replace text[31:43] --> decoded_text[63:69] 'きくなってきちゃいました' --> ' [UNK]'" - ], - "n_oov_chars": 12, - "oov_ratio": 0.27906976744186046, - "oov_charset": "[\"モ\", \"場\", \"程\", \"経\", \"過\", \"徐\", \"々\", \"で\", \"ど\", \"少\", \"ゃ\"]" - }, - { - "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "decoded_text": "たた 、 これまてお [UNK] [UNK] [UNK] [UNK] からは [UNK] [UNK] とかされたことはないのて 、 こちらから [UNK] [UNK] [UNK] 立 つ [UNK] [UNK] 。", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '", - "insert text[3:3] --> decoded_text[4:5] '' --> ' '", - "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'", - "replace text[8:12] --> decoded_text[10:35] '散歩仲間' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[15:17] --> decoded_text[38:51] '指摘' --> ' [UNK] [UNK] '", - "replace text[28:29] --> decoded_text[62:64] 'で' --> 'て '", - "insert text[30:30] --> decoded_text[65:66] '' --> ' '", - "replace text[35:46] --> decoded_text[71:90] '言わなければそんなに目' --> ' [UNK] [UNK] [UNK] '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "replace text[48:59] --> decoded_text[93:106] '程ではないんですけどね' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 18, - "oov_ratio": 0.3, - "oov_charset": "[\"だ\", \"で\", \"散\", \"歩\", \"仲\", \"間\", \"指\", \"摘\", \"言\", \"わ\", \"ば\", \"目\", \"程\", \"ど\", \"ね\"]" - }, - { - "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", - "decoded_text": "[UNK] はヒアルロン [UNK] の [UNK] [UNK] なとも [UNK] 方 されてたようてすか 、 これか [UNK] く 事 はないそうてす 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '昔' --> '[UNK] '", - "replace text[7:8] --> decoded_text[12:19] '酸' --> ' [UNK] '", - "replace text[9:11] --> decoded_text[20:33] '目薬' --> ' [UNK] [UNK] '", - "replace text[12:13] --> decoded_text[34:35] 'ど' --> 'と'", - "replace text[14:15] --> decoded_text[36:43] '処' --> ' [UNK] '", - "insert text[16:16] --> decoded_text[44:45] '' --> ' '", - "replace text[22:23] --> decoded_text[51:52] 'で' --> 'て'", - "replace text[24:25] --> decoded_text[53:55] 'が' --> 'か '", - "insert text[26:26] --> decoded_text[56:57] '' --> ' '", - "replace text[28:30] --> decoded_text[59:67] 'が効' --> 'か [UNK] '", - "insert text[31:31] --> decoded_text[68:69] '' --> ' '", - "insert text[32:32] --> decoded_text[70:71] '' --> ' '", - "replace text[37:38] --> decoded_text[76:77] 'で' --> 'て'", - "insert text[39:39] --> decoded_text[78:79] '' --> ' '" - ], - "n_oov_chars": 11, - "oov_ratio": 0.275, - "oov_charset": "[\"昔\", \"酸\", \"目\", \"薬\", \"ど\", \"処\", \"で\", \"が\", \"効\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なのて 、 エルティとのお [UNK] [UNK] ても [UNK] [UNK] 。 カタクリの [UNK] [UNK] 分 [UNK] きとの 情 [UNK] から [UNK] [UNK] [UNK] 取 り 入 れてみました 。", - "diff": [ - "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '", - "insert text[4:4] --> decoded_text[5:6] '' --> ' '", - "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'", - "replace text[11:14] --> decoded_text[13:27] '散歩で' --> ' [UNK] [UNK] て'", - "replace text[15:26] --> decoded_text[28:41] '訪れたことがありません' --> ' [UNK] [UNK] '", - "replace text[33:36] --> decoded_text[48:61] '花が5' --> ' [UNK] [UNK] '", - "replace text[37:38] --> decoded_text[62:69] '咲' --> ' [UNK] '", - "insert text[41:41] --> decoded_text[72:73] '' --> ' '", - "replace text[42:43] --> decoded_text[74:81] '報' --> ' [UNK] '", - "replace text[45:54] --> decoded_text[83:102] '今回コースの1つに' --> ' [UNK] [UNK] [UNK] '", - "insert text[55:55] --> decoded_text[103:104] '' --> ' '", - "insert text[56:56] --> decoded_text[105:106] '' --> ' '", - "insert text[57:57] --> decoded_text[107:108] '' --> ' '", - "insert text[63:63] --> decoded_text[114:115] '' --> ' '" - ], - "n_oov_chars": 16, - "oov_ratio": 0.25, - "oov_charset": "[\"で\", \"デ\", \"散\", \"歩\", \"訪\", \"が\", \"せ\", \"花\", \"5\", \"咲\", \"報\", \"今\", \"回\", \"1\"]" - }, - { - "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", - "decoded_text": "前 [UNK] [UNK] ってみたかったんたけと 、 いつも [UNK] 上 部 らしき 学 生 さんかものすこいスヒートて [UNK] け [UNK] けていくのを [UNK] の [UNK] [UNK]", - "diff": [ - "replace text[1:5] --> decoded_text[1:14] '々から走' --> ' [UNK] [UNK] '", - "replace text[13:14] --> decoded_text[22:23] 'だ' --> 'た'", - "replace text[15:16] --> decoded_text[24:26] 'ど' --> 'と '", - "insert text[17:17] --> decoded_text[27:28] '' --> ' '", - "replace text[20:21] --> decoded_text[31:38] '陸' --> ' [UNK] '", - "insert text[22:22] --> decoded_text[39:40] '' --> ' '", - "insert text[23:23] --> decoded_text[41:42] '' --> ' '", - "insert text[26:26] --> decoded_text[45:46] '' --> ' '", - "insert text[27:27] --> decoded_text[47:48] '' --> ' '", - "insert text[28:28] --> decoded_text[49:50] '' --> ' '", - "replace text[30:31] --> decoded_text[52:53] 'が' --> 'か'", - "replace text[34:35] --> decoded_text[56:57] 'ご' --> 'こ'", - "replace text[37:38] --> decoded_text[59:60] 'ピ' --> 'ヒ'", - "replace text[39:42] --> decoded_text[61:70] 'ドで駆' --> 'トて [UNK] '", - "replace text[43:44] --> decoded_text[71:78] '抜' --> ' [UNK] '", - "replace text[50:51] --> decoded_text[84:91] '目' --> ' [UNK] '", - "replace text[52:71] --> decoded_text[92:104] '当たりにしてちょっとビビっておりました' --> ' [UNK] [UNK]'" - ], - "n_oov_chars": 17, - "oov_ratio": 0.23943661971830985, - "oov_charset": "[\"々\", \"走\", \"だ\", \"ど\", \"陸\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"駆\", \"抜\", \"目\", \"当\", \"ょ\", \"ビ\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "[UNK] [UNK] から [UNK] か 心 [UNK] たったのて [UNK] 出 [UNK] 、 [UNK] [UNK] [UNK] を [UNK] って 来 ました !", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '午後' --> '[UNK] [UNK] '", + "replace text[4:6] --> decoded_text[14:23] '雨が' --> ' [UNK] か '", + "replace text[7:9] --> decoded_text[24:32] '配だ' --> ' [UNK] た'", + "replace text[12:14] --> decoded_text[35:43] 'で遠' --> 'て [UNK] '", + "replace text[15:18] --> decoded_text[44:51] 'はせず' --> ' [UNK] '", + "replace text[19:28] --> decoded_text[52:71] '『ふれあいロード』' --> ' [UNK] [UNK] [UNK] '", + "replace text[29:30] --> decoded_text[72:79] '走' --> ' [UNK] '", + "insert text[32:32] --> decoded_text[81:82] '' --> ' '", + "insert text[33:33] --> decoded_text[83:84] '' --> ' '", + "insert text[36:36] --> decoded_text[87:88] '' --> ' '" + ], + "n_oov_chars": 15, + "oov_ratio": 0.40540540540540543, + "oov_charset": "[\"午\", \"後\", \"雨\", \"が\", \"配\", \"だ\", \"で\", \"遠\", \"せ\", \"ず\", \"『\", \"ふ\", \"ド\", \"』\", \"走\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "[UNK] [UNK] に [UNK] か [UNK] ついてることを [UNK] て [UNK] しることか 出 来 ました [UNK] [UNK] [UNK] [UNK] されてる [UNK] [UNK] 道 を [UNK] [UNK] 世 [UNK] になってるホウリンク [UNK] か [UNK] [UNK] 来 ました 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '確実' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:29] '春が近づ' --> ' [UNK] か [UNK] つ'", + "replace text[13:17] --> decoded_text[35:51] '肌で感じ' --> ' [UNK] て [UNK] し'", + "replace text[20:21] --> decoded_text[54:56] 'が' --> 'か '", + "insert text[22:22] --> decoded_text[57:58] '' --> ' '", + "insert text[23:23] --> decoded_text[59:60] '' --> ' '", + "replace text[27:32] --> decoded_text[64:88] '着々と整備' --> '[UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[92:105] '圏央' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[106:107] '' --> ' '", + "replace text[40:45] --> decoded_text[108:121] '越えるとお' --> ' [UNK] [UNK] '", + "replace text[46:47] --> decoded_text[122:129] '話' --> ' [UNK] '", + "replace text[52:53] --> decoded_text[134:135] 'ボ' --> 'ホ'", + "replace text[56:62] --> decoded_text[138:160] 'グ場が見えて' --> 'ク [UNK] か [UNK] [UNK] '", + "insert text[63:63] --> decoded_text[161:162] '' --> ' '", + "insert text[66:66] --> decoded_text[165:166] '' --> ' '" + ], + "n_oov_chars": 26, + "oov_ratio": 0.3880597014925373, + "oov_charset": "[\"確\", \"実\", \"春\", \"が\", \"近\", \"づ\", \"肌\", \"で\", \"感\", \"じ\", \"着\", \"々\", \"整\", \"備\", \"圏\", \"央\", \"越\", \"え\", \"話\", \"ボ\", \"グ\", \"場\", \"見\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] [UNK] [UNK] 、 [UNK] か [UNK] 中 てトイレに 行 きたくなってしまい 、 [UNK] り 道 にあったケンタに [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:4] --> decoded_text[0:18] 'うぅ〜〜' --> '[UNK] [UNK] [UNK] '", + "replace text[5:8] --> decoded_text[19:34] '私が途' --> ' [UNK] か [UNK] '", + "replace text[9:10] --> decoded_text[35:37] 'で' --> ' て'", + "insert text[14:14] --> decoded_text[41:42] '' --> ' '", + "insert text[15:15] --> decoded_text[43:44] '' --> ' '", + "insert text[24:24] --> decoded_text[53:54] '' --> ' '", + "replace text[25:26] --> decoded_text[55:62] '通' --> ' [UNK] '", + "insert text[27:27] --> decoded_text[63:64] '' --> ' '", + "insert text[28:28] --> decoded_text[65:66] '' --> ' '", + "replace text[36:45] --> decoded_text[74:93] '変更しちゃいました' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 11, + "oov_ratio": 0.2391304347826087, + "oov_charset": "[\"ぅ\", \"〜\", \"私\", \"が\", \"途\", \"で\", \"通\", \"変\", \"更\", \"ゃ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "[UNK] は 、 [UNK] 年 [UNK] 前 [UNK] [UNK] [UNK] の [UNK] [UNK] の [UNK] によ [UNK] く [UNK] ないと 分 からない [UNK] の 小 さな [UNK] を [UNK] つけてたんてす 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '実' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:16] '1' --> ' [UNK] '", + "replace text[5:6] --> decoded_text[17:24] '程' --> ' [UNK] '", + "replace text[7:12] --> decoded_text[25:44] 'にエルモサ' --> ' [UNK] [UNK] [UNK] '", + "replace text[13:15] --> decoded_text[45:58] '右目' --> ' [UNK] [UNK] '", + "replace text[16:20] --> decoded_text[59:66] '黒目の端' --> ' [UNK] '", + "replace text[22:23] --> decoded_text[68:75] '〜' --> ' [UNK] '", + "replace text[24:25] --> decoded_text[76:83] '見' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[86:87] '' --> ' '", + "insert text[29:29] --> decoded_text[88:89] '' --> ' '", + "replace text[33:34] --> decoded_text[93:100] '程' --> ' [UNK] '", + "insert text[35:35] --> decoded_text[101:102] '' --> ' '", + "insert text[36:36] --> decoded_text[103:104] '' --> ' '", + "replace text[38:39] --> decoded_text[106:113] '斑' --> ' [UNK] '", + "replace text[40:41] --> decoded_text[114:121] '見' --> ' [UNK] '", + "replace text[46:47] --> decoded_text[126:127] 'で' --> 'て'", + "insert text[48:48] --> decoded_text[128:129] '' --> ' '" + ], + "n_oov_chars": 15, + "oov_ratio": 0.30612244897959184, + "oov_charset": "[\"実\", \"1\", \"程\", \"モ\", \"右\", \"目\", \"黒\", \"端\", \"〜\", \"見\", \"斑\", \"で\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その 時 [UNK] て [UNK] 生 からはおそらく [UNK] [UNK] [UNK] シストロフィー [UNK] [UNK] [UNK] [UNK] をもらっていました 。", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> ' '", + "replace text[3:6] --> decoded_text[4:19] '点で先' --> ' [UNK] て [UNK] '", + "insert text[7:7] --> decoded_text[20:21] '' --> ' '", + "replace text[14:18] --> decoded_text[28:48] '『角膜ジ' --> ' [UNK] [UNK] [UNK] シ'", + "replace text[24:33] --> decoded_text[54:79] '』であろうとの診断' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[42:42] --> decoded_text[88:89] '' --> ' '" + ], + "n_oov_chars": 12, + "oov_ratio": 0.27906976744186046, + "oov_charset": "[\"点\", \"で\", \"先\", \"『\", \"角\", \"膜\", \"ジ\", \"』\", \"ろ\", \"診\", \"断\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "[UNK] [UNK] 合 は1 年 [UNK] [UNK] [UNK] して [UNK] [UNK] 、 [UNK] し 大 [UNK]", + "diff": [ + "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "replace text[10:13] --> decoded_text[18:37] '程経過' --> ' [UNK] [UNK] [UNK] '", + "replace text[15:27] --> decoded_text[39:52] '徐々にではあるんですけど' --> ' [UNK] [UNK] '", + "replace text[28:29] --> decoded_text[53:60] '少' --> ' [UNK] '", + "insert text[30:30] --> decoded_text[61:62] '' --> ' '", + "replace text[31:43] --> decoded_text[63:69] 'きくなってきちゃいました' --> ' [UNK]'" + ], + "n_oov_chars": 12, + "oov_ratio": 0.27906976744186046, + "oov_charset": "[\"モ\", \"場\", \"程\", \"経\", \"過\", \"徐\", \"々\", \"で\", \"ど\", \"少\", \"ゃ\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "たた 、 これまてお [UNK] [UNK] [UNK] [UNK] からは [UNK] [UNK] とかされたことはないのて 、 こちらから [UNK] [UNK] [UNK] 立 つ [UNK] [UNK] 。", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '", + "insert text[3:3] --> decoded_text[4:5] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'", + "replace text[8:12] --> decoded_text[10:35] '散歩仲間' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[15:17] --> decoded_text[38:51] '指摘' --> ' [UNK] [UNK] '", + "replace text[28:29] --> decoded_text[62:64] 'で' --> 'て '", + "insert text[30:30] --> decoded_text[65:66] '' --> ' '", + "replace text[35:46] --> decoded_text[71:90] '言わなければそんなに目' --> ' [UNK] [UNK] [UNK] '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "replace text[48:59] --> decoded_text[93:106] '程ではないんですけどね' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 18, + "oov_ratio": 0.3, + "oov_charset": "[\"だ\", \"で\", \"散\", \"歩\", \"仲\", \"間\", \"指\", \"摘\", \"言\", \"わ\", \"ば\", \"目\", \"程\", \"ど\", \"ね\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "[UNK] はヒアルロン [UNK] の [UNK] [UNK] なとも [UNK] 方 されてたようてすか 、 これか [UNK] く 事 はないそうてす 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '昔' --> '[UNK] '", + "replace text[7:8] --> decoded_text[12:19] '酸' --> ' [UNK] '", + "replace text[9:11] --> decoded_text[20:33] '目薬' --> ' [UNK] [UNK] '", + "replace text[12:13] --> decoded_text[34:35] 'ど' --> 'と'", + "replace text[14:15] --> decoded_text[36:43] '処' --> ' [UNK] '", + "insert text[16:16] --> decoded_text[44:45] '' --> ' '", + "replace text[22:23] --> decoded_text[51:52] 'で' --> 'て'", + "replace text[24:25] --> decoded_text[53:55] 'が' --> 'か '", + "insert text[26:26] --> decoded_text[56:57] '' --> ' '", + "replace text[28:30] --> decoded_text[59:67] 'が効' --> 'か [UNK] '", + "insert text[31:31] --> decoded_text[68:69] '' --> ' '", + "insert text[32:32] --> decoded_text[70:71] '' --> ' '", + "replace text[37:38] --> decoded_text[76:77] 'で' --> 'て'", + "insert text[39:39] --> decoded_text[78:79] '' --> ' '" + ], + "n_oov_chars": 11, + "oov_ratio": 0.275, + "oov_charset": "[\"昔\", \"酸\", \"目\", \"薬\", \"ど\", \"処\", \"で\", \"が\", \"効\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なのて 、 エルティとのお [UNK] [UNK] ても [UNK] [UNK] 。 カタクリの [UNK] [UNK] 分 [UNK] きとの 情 [UNK] から [UNK] [UNK] [UNK] 取 り 入 れてみました 。", + "diff": [ + "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'", + "replace text[11:14] --> decoded_text[13:27] '散歩で' --> ' [UNK] [UNK] て'", + "replace text[15:26] --> decoded_text[28:41] '訪れたことがありません' --> ' [UNK] [UNK] '", + "replace text[33:36] --> decoded_text[48:61] '花が5' --> ' [UNK] [UNK] '", + "replace text[37:38] --> decoded_text[62:69] '咲' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[72:73] '' --> ' '", + "replace text[42:43] --> decoded_text[74:81] '報' --> ' [UNK] '", + "replace text[45:54] --> decoded_text[83:102] '今回コースの1つに' --> ' [UNK] [UNK] [UNK] '", + "insert text[55:55] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[105:106] '' --> ' '", + "insert text[57:57] --> decoded_text[107:108] '' --> ' '", + "insert text[63:63] --> decoded_text[114:115] '' --> ' '" + ], + "n_oov_chars": 16, + "oov_ratio": 0.25, + "oov_charset": "[\"で\", \"デ\", \"散\", \"歩\", \"訪\", \"が\", \"せ\", \"花\", \"5\", \"咲\", \"報\", \"今\", \"回\", \"1\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前 [UNK] [UNK] ってみたかったんたけと 、 いつも [UNK] 上 部 らしき 学 生 さんかものすこいスヒートて [UNK] け [UNK] けていくのを [UNK] の [UNK] [UNK]", + "diff": [ + "replace text[1:5] --> decoded_text[1:14] '々から走' --> ' [UNK] [UNK] '", + "replace text[13:14] --> decoded_text[22:23] 'だ' --> 'た'", + "replace text[15:16] --> decoded_text[24:26] 'ど' --> 'と '", + "insert text[17:17] --> decoded_text[27:28] '' --> ' '", + "replace text[20:21] --> decoded_text[31:38] '陸' --> ' [UNK] '", + "insert text[22:22] --> decoded_text[39:40] '' --> ' '", + "insert text[23:23] --> decoded_text[41:42] '' --> ' '", + "insert text[26:26] --> decoded_text[45:46] '' --> ' '", + "insert text[27:27] --> decoded_text[47:48] '' --> ' '", + "insert text[28:28] --> decoded_text[49:50] '' --> ' '", + "replace text[30:31] --> decoded_text[52:53] 'が' --> 'か'", + "replace text[34:35] --> decoded_text[56:57] 'ご' --> 'こ'", + "replace text[37:38] --> decoded_text[59:60] 'ピ' --> 'ヒ'", + "replace text[39:42] --> decoded_text[61:70] 'ドで駆' --> 'トて [UNK] '", + "replace text[43:44] --> decoded_text[71:78] '抜' --> ' [UNK] '", + "replace text[50:51] --> decoded_text[84:91] '目' --> ' [UNK] '", + "replace text[52:71] --> decoded_text[92:104] '当たりにしてちょっとビビっておりました' --> ' [UNK] [UNK]'" + ], + "n_oov_chars": 17, + "oov_ratio": 0.23943661971830985, + "oov_charset": "[\"々\", \"走\", \"だ\", \"ど\", \"陸\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"駆\", \"抜\", \"目\", \"当\", \"ょ\", \"ビ\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json index 86e24ad802e5147defafad9e1817c730e1517aa2..30fe3d96b1e1167d3fc08bd02d030e274b22fcbc 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json @@ -1,267 +1,267 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ home > [UNK]", - "diff": [ - "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", - "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.6666666666666666, - "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 [UNK] [UNK].", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'", - "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "insert text[9:9] --> decoded_text[15:16] '' --> ' '", - "replace text[11:12] --> decoded_text[18:21] '번' --> '번'", - "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'", - "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'", - "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'", - "replace text[25:33] --> decoded_text[46:51] '황금의제국카지노' --> '[UNK]'", - "replace text[34:39] --> decoded_text[52:57] '홀아웃했다' --> '[UNK]'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "[UNK]'[UNK] - [UNK] 벌'이 천만을 넘은 [UNK] [UNK] 기다린 [UNK] [UNK] [UNK] 주소 [UNK] [UNK].", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", - "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", - "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", - "replace text[12:13] --> decoded_text[14:23] '벌' --> '[UNK] 벌'", - "replace text[14:15] --> decoded_text[24:26] '이' --> '이'", - "replace text[16:19] --> decoded_text[27:36] '천만을' --> '천만을'", - "replace text[20:22] --> decoded_text[37:43] '넘은' --> '넘은'", - "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", - "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", - "replace text[30:33] --> decoded_text[56:63] '기다린' --> '기다린'", - "replace text[34:42] --> decoded_text[64:69] '황금의제국카지노' --> '[UNK]'", - "replace text[43:47] --> decoded_text[70:75] '관객들의' --> '[UNK]'", - "replace text[48:51] --> decoded_text[76:81] '기대와' --> '[UNK]'", - "replace text[52:54] --> decoded_text[82:86] '주소' --> '주소'", - "replace text[55:58] --> decoded_text[87:92] '관심은' --> '[UNK]'", - "replace text[59:64] --> decoded_text[93:98] '폭발적이다' --> '[UNK]'" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": "고려해서 주소'대체재 일색'[UNK] 분재를 [UNK] [UNK] [UNK]. [UNK] [UNK] 소설가가 스스로 [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'", - "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"", - "insert text[8:8] --> decoded_text[21:27] '' --> '일색'", - "replace text[9:12] --> decoded_text[28:33] '대체재' --> '[UNK]'", - "replace text[13:17] --> decoded_text[34:42] \"일색'의\" --> '분재를'", - "replace text[18:21] --> decoded_text[43:48] '분재를' --> '[UNK]'", - "replace text[22:25] --> decoded_text[49:54] '내놓을' --> '[UNK]'", - "replace text[26:32] --> decoded_text[55:60] '위험이 있다' --> '[UNK]'", - "replace text[34:37] --> decoded_text[62:67] '문학의' --> '[UNK]'", - "replace text[38:41] --> decoded_text[68:73] '자유를' --> '[UNK]'", - "replace text[42:46] --> decoded_text[74:83] '소설가가' --> '소설가가'", - "replace text[47:50] --> decoded_text[84:90] '스스로' --> '스스로'", - "replace text[51:59] --> decoded_text[91:96] '황금의제국카지노' --> '[UNK]'", - "replace text[60:64] --> decoded_text[97:102] '출판사에' --> '[UNK]'", - "replace text[65:69] --> decoded_text[103:108] '상납하는' --> '[UNK]'", - "replace text[70:73] --> decoded_text[109:114] '것이다' --> '[UNK]'" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "[UNK] [UNK] [UNK] 주소 바레토 ( 22 ) 는 [UNK] 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 [UNK] 기대치를 보여주지 [UNK] [UNK].", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", - "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", - "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", - "replace text[15:17] --> decoded_text[18:22] '주소' --> '주소'", - "replace text[18:21] --> decoded_text[23:30] '바레토' --> '바레토 '", - "insert text[22:22] --> decoded_text[31:32] '' --> ' '", - "insert text[24:24] --> decoded_text[34:35] '' --> ' '", - "delete text[25:26] --> decoded_text[36:36] '는' --> ''", - "replace text[27:35] --> decoded_text[37:46] '황금의제국카지노' --> '는 [UNK]'", - "replace text[37:39] --> decoded_text[48:52] '타수' --> '타수'", - "replace text[40:42] --> decoded_text[53:59] '안타' --> '안타 '", - "insert text[43:43] --> decoded_text[60:61] '' --> ' '", - "replace text[44:46] --> decoded_text[62:66] '루타' --> '루타'", - "replace text[47:49] --> decoded_text[67:74] '홈런' --> '홈런 '", - "replace text[52:54] --> decoded_text[77:83] '타점' --> '타점 '", - "insert text[56:56] --> decoded_text[85:86] '' --> ' '", - "insert text[59:59] --> decoded_text[89:90] '' --> '.'", - "delete text[60:61] --> decoded_text[91:91] '.' --> ''", - "insert text[64:64] --> decoded_text[94:95] '' --> '.'", - "delete text[65:66] --> decoded_text[96:96] '.' --> ''", - "insert text[69:69] --> decoded_text[99:100] '' --> ' '", - "replace text[72:75] --> decoded_text[103:110] '하지만' --> '하지만'", - "replace text[76:79] --> decoded_text[111:119] '아직은' --> '아직은'", - "replace text[80:84] --> decoded_text[120:128] '트레이드' --> '트레이드'", - "replace text[85:88] --> decoded_text[129:134] '당시의' --> '[UNK]'", - "replace text[89:93] --> decoded_text[135:144] '기대치를' --> '기대치를'", - "replace text[94:98] --> decoded_text[145:153] '보여주지' --> '보여주지'", - "replace text[99:102] --> decoded_text[154:159] '못하고' --> '[UNK]'", - "replace text[103:105] --> decoded_text[160:165] '있다' --> '[UNK]'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, [UNK] e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 [UNK] 한다.", - "diff": [ - "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'", - "replace text[8:10] --> decoded_text[16:21] '팀이' --> '팀이'", - "replace text[11:15] --> decoded_text[22:33] '준결승에' --> '준결승에'", - "replace text[16:19] --> decoded_text[34:41] '오른다' --> '오른다'", - "replace text[21:23] --> decoded_text[43:49] '결국' --> '결국'", - "replace text[24:25] --> decoded_text[50:51] 'A' --> 'a'", - "replace text[27:29] --> decoded_text[53:56] 'B조' --> 'b조'", - "replace text[30:33] --> decoded_text[57:62] '1위는' --> '[UNK]'", - "replace text[36:37] --> decoded_text[65:69] '강' --> '강 '", - "insert text[38:38] --> decoded_text[70:71] '' --> ' '", - "replace text[39:40] --> decoded_text[72:76] '강' --> '강 '", - "replace text[41:45] --> decoded_text[77:88] '결승으로' --> ' 결승으로'", - "replace text[47:50] --> decoded_text[90:98] '경기를' --> '경기를'", - "replace text[51:55] --> decoded_text[99:108] '치르지만' --> '치르지만'", - "replace text[57:58] --> decoded_text[110:111] 'C' --> 'c'", - "replace text[60:61] --> decoded_text[113:114] 'D' --> 'd'", - "replace text[63:71] --> decoded_text[116:121] '황금의제국카지노' --> '[UNK]'", - "replace text[72:73] --> decoded_text[122:123] 'E' --> 'e'", - "replace text[75:77] --> decoded_text[125:128] 'F조' --> 'f조'", - "replace text[78:81] --> decoded_text[129:134] '1위는' --> '[UNK]'", - "replace text[82:84] --> decoded_text[135:139] '주소' --> '주소'", - "replace text[87:88] --> decoded_text[142:146] '강' --> '강 '", - "insert text[89:89] --> decoded_text[147:148] '' --> ' '", - "replace text[90:91] --> decoded_text[149:153] '강' --> '강 '", - "delete text[92:99] --> decoded_text[154:154] '4강-결승으로' --> ''", - "replace text[101:104] --> decoded_text[156:159] '경기를' --> '강'", - "replace text[105:107] --> decoded_text[160:161] '해야' --> '-'", - "replace text[108:110] --> decoded_text[162:194] '한다' --> '결승으로 4경기를 [UNK] 한다'" - ], - "n_oov_chars": 66, - "oov_ratio": 0.5945945945945946, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": "[UNK] 눈길을 주소 [UNK] [UNK] 한 [UNK] [UNK]. [UNK] [UNK] 매니저 일을 하고 [UNK] 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 [UNK], [UNK] [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", - "replace text[5:8] --> decoded_text[6:15] '눈길을' --> '눈길을'", - "replace text[9:11] --> decoded_text[16:20] '주소' --> '주소'", - "replace text[12:13] --> decoded_text[21:26] '끈' --> '[UNK]'", - "replace text[14:16] --> decoded_text[27:32] '것은' --> '[UNK]'", - "replace text[17:18] --> decoded_text[33:36] '한' --> '한'", - "replace text[19:24] --> decoded_text[37:42] '신인배우의' --> '[UNK]'", - "replace text[25:30] --> decoded_text[43:48] '매니저였다' --> '[UNK]'", - "replace text[32:40] --> decoded_text[50:55] '황금의제국카지노' --> '[UNK]'", - "replace text[41:44] --> decoded_text[56:61] '배우의' --> '[UNK]'", - "replace text[45:48] --> decoded_text[62:68] '매니저' --> '매니저'", - "replace text[49:51] --> decoded_text[69:75] '일을' --> '일을'", - "replace text[52:54] --> decoded_text[76:80] '하고' --> '하고'", - "replace text[55:58] --> decoded_text[81:86] '있다는' --> '[UNK]'", - "replace text[59:60] --> decoded_text[87:90] '한' --> '한'", - "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", - "replace text[66:69] --> decoded_text[97:104] '사연에' --> '사연에'", - "replace text[70:74] --> decoded_text[105:125] '박명수는' --> \"박명수는'실시간\"", - "insert text[75:75] --> decoded_text[126:140] '' --> '검색어 [UNK]'", - "replace text[76:79] --> decoded_text[141:144] '실시간' --> '를'", - "replace text[80:96] --> decoded_text[145:150] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", - "replace text[98:103] --> decoded_text[152:157] '통화연결을' --> '[UNK]'", - "replace text[104:106] --> decoded_text[158:163] '했다' --> '[UNK]'" - ], - "n_oov_chars": 78, - "oov_ratio": 0.7289719626168224, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": "하지만이번 [UNK] 시즌, [UNK] [UNK] 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 ‘ 빅 사이닝 ’ 을 통해 [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'", - "replace text[6:14] --> decoded_text[13:18] '황금의제국카지노' --> '[UNK]'", - "replace text[15:17] --> decoded_text[19:24] '시즌' --> '시즌'", - "replace text[19:23] --> decoded_text[26:31] '호날두와' --> '[UNK]'", - "replace text[24:28] --> decoded_text[32:37] '이과인이' --> '[UNK]'", - "replace text[29:31] --> decoded_text[38:42] '다시' --> '다시'", - "replace text[32:34] --> decoded_text[43:47] '주소' --> '주소'", - "replace text[35:39] --> decoded_text[48:53] '한솥밥을' --> '[UNK]'", - "replace text[40:42] --> decoded_text[54:60] '먹는' --> '먹는'", - "replace text[43:45] --> decoded_text[61:66] '일이' --> '일이'", - "replace text[46:50] --> decoded_text[67:72] '성사됐다' --> '[UNK]'", - "replace text[52:56] --> decoded_text[74:83] '호날두가' --> '호날두가'", - "delete text[58:59] --> decoded_text[85:85] '빅' --> ''", - "replace text[60:63] --> decoded_text[86:98] '사이닝' --> '빅 사이닝 '", - "delete text[64:65] --> decoded_text[99:99] '을' --> ''", - "replace text[66:68] --> decoded_text[100:103] '통해' --> '을'", - "replace text[69:74] --> decoded_text[104:109] '유벤투스로' --> '통해'", - "replace text[75:78] --> decoded_text[110:115] '옮겼기' --> '[UNK]'", - "replace text[79:83] --> decoded_text[116:127] '때문이다' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.7380952380952381, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": "[UNK] 시범경기를 [UNK] 홍천에 [UNK] 주소 [UNK].", - "diff": [ - "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", - "replace text[12:17] --> decoded_text[6:19] '시범경기를' --> '시범경기를'", - "replace text[18:20] --> decoded_text[20:25] '위해' --> '[UNK]'", - "replace text[21:24] --> decoded_text[26:34] '홍천에' --> '홍천에'", - "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", - "replace text[34:36] --> decoded_text[41:45] '주소' --> '주소'", - "replace text[37:39] --> decoded_text[46:51] '왔다' --> '[UNK]'" - ], - "n_oov_chars": 33, - "oov_ratio": 0.825, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": "사실자매가 나란히 [UNK] [UNK] 한다는 게 [UNK] [UNK] 한데, 주소 둘 사이에는 [UNK] [UNK] [UNK]. 마치 하루에 한 [UNK] 만나는 친구 [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'", - "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'", - "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'", - "replace text[13:17] --> decoded_text[26:31] '인터뷰를' --> '[UNK]'", - "replace text[18:21] --> decoded_text[32:40] '한다는' --> '한다는'", - "replace text[22:23] --> decoded_text[41:43] '게' --> '게'", - "replace text[24:28] --> decoded_text[44:49] '쑥스러울' --> '[UNK]'", - "replace text[29:31] --> decoded_text[50:55] '법도' --> '[UNK]'", - "replace text[32:34] --> decoded_text[56:61] '한데' --> '한데'", - "replace text[36:38] --> decoded_text[63:67] '주소' --> '주소'", - "replace text[39:40] --> decoded_text[68:71] '둘' --> '둘'", - "replace text[41:45] --> decoded_text[72:81] '사이에는' --> '사이에는'", - "replace text[46:48] --> decoded_text[82:87] '어떤' --> '[UNK]'", - "replace text[49:53] --> decoded_text[88:93] '거리낌도' --> '[UNK]'", - "replace text[54:57] --> decoded_text[94:99] '없었다' --> '[UNK]'", - "replace text[59:61] --> decoded_text[101:105] '마치' --> '마치'", - "replace text[62:65] --> decoded_text[106:112] '하루에' --> '하루에'", - "replace text[66:67] --> decoded_text[113:116] '한' --> '한'", - "replace text[68:70] --> decoded_text[117:122] '번씩' --> '[UNK]'", - "replace text[71:74] --> decoded_text[123:131] '만나는' --> '만나는'", - "replace text[75:77] --> decoded_text[132:137] '친구' --> '친구'", - "replace text[78:80] --> decoded_text[138:143] '같은' --> '[UNK]'", - "replace text[81:84] --> decoded_text[144:149] '느낌이' --> '[UNK]'", - "replace text[85:93] --> decoded_text[150:155] '황금의제국카지노' --> '[UNK]'", - "replace text[94:97] --> decoded_text[156:161] '강했다' --> '[UNK]'" - ], - "n_oov_chars": 71, - "oov_ratio": 0.7244897959183674, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > [UNK]", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 [UNK] [UNK].", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'", + "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "insert text[9:9] --> decoded_text[15:16] '' --> ' '", + "replace text[11:12] --> decoded_text[18:21] '번' --> '번'", + "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'", + "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'", + "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'", + "replace text[25:33] --> decoded_text[46:51] '황금의제국카지노' --> '[UNK]'", + "replace text[34:39] --> decoded_text[52:57] '홀아웃했다' --> '[UNK]'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "[UNK]'[UNK] - [UNK] 벌'이 천만을 넘은 [UNK] [UNK] 기다린 [UNK] [UNK] [UNK] 주소 [UNK] [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", + "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", + "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", + "replace text[12:13] --> decoded_text[14:23] '벌' --> '[UNK] 벌'", + "replace text[14:15] --> decoded_text[24:26] '이' --> '이'", + "replace text[16:19] --> decoded_text[27:36] '천만을' --> '천만을'", + "replace text[20:22] --> decoded_text[37:43] '넘은' --> '넘은'", + "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", + "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", + "replace text[30:33] --> decoded_text[56:63] '기다린' --> '기다린'", + "replace text[34:42] --> decoded_text[64:69] '황금의제국카지노' --> '[UNK]'", + "replace text[43:47] --> decoded_text[70:75] '관객들의' --> '[UNK]'", + "replace text[48:51] --> decoded_text[76:81] '기대와' --> '[UNK]'", + "replace text[52:54] --> decoded_text[82:86] '주소' --> '주소'", + "replace text[55:58] --> decoded_text[87:92] '관심은' --> '[UNK]'", + "replace text[59:64] --> decoded_text[93:98] '폭발적이다' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "고려해서 주소'대체재 일색'[UNK] 분재를 [UNK] [UNK] [UNK]. [UNK] [UNK] 소설가가 스스로 [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'", + "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"", + "insert text[8:8] --> decoded_text[21:27] '' --> '일색'", + "replace text[9:12] --> decoded_text[28:33] '대체재' --> '[UNK]'", + "replace text[13:17] --> decoded_text[34:42] \"일색'의\" --> '분재를'", + "replace text[18:21] --> decoded_text[43:48] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[49:54] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[55:60] '위험이 있다' --> '[UNK]'", + "replace text[34:37] --> decoded_text[62:67] '문학의' --> '[UNK]'", + "replace text[38:41] --> decoded_text[68:73] '자유를' --> '[UNK]'", + "replace text[42:46] --> decoded_text[74:83] '소설가가' --> '소설가가'", + "replace text[47:50] --> decoded_text[84:90] '스스로' --> '스스로'", + "replace text[51:59] --> decoded_text[91:96] '황금의제국카지노' --> '[UNK]'", + "replace text[60:64] --> decoded_text[97:102] '출판사에' --> '[UNK]'", + "replace text[65:69] --> decoded_text[103:108] '상납하는' --> '[UNK]'", + "replace text[70:73] --> decoded_text[109:114] '것이다' --> '[UNK]'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "[UNK] [UNK] [UNK] 주소 바레토 ( 22 ) 는 [UNK] 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 [UNK] 기대치를 보여주지 [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", + "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", + "replace text[15:17] --> decoded_text[18:22] '주소' --> '주소'", + "replace text[18:21] --> decoded_text[23:30] '바레토' --> '바레토 '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "insert text[24:24] --> decoded_text[34:35] '' --> ' '", + "delete text[25:26] --> decoded_text[36:36] '는' --> ''", + "replace text[27:35] --> decoded_text[37:46] '황금의제국카지노' --> '는 [UNK]'", + "replace text[37:39] --> decoded_text[48:52] '타수' --> '타수'", + "replace text[40:42] --> decoded_text[53:59] '안타' --> '안타 '", + "insert text[43:43] --> decoded_text[60:61] '' --> ' '", + "replace text[44:46] --> decoded_text[62:66] '루타' --> '루타'", + "replace text[47:49] --> decoded_text[67:74] '홈런' --> '홈런 '", + "replace text[52:54] --> decoded_text[77:83] '타점' --> '타점 '", + "insert text[56:56] --> decoded_text[85:86] '' --> ' '", + "insert text[59:59] --> decoded_text[89:90] '' --> '.'", + "delete text[60:61] --> decoded_text[91:91] '.' --> ''", + "insert text[64:64] --> decoded_text[94:95] '' --> '.'", + "delete text[65:66] --> decoded_text[96:96] '.' --> ''", + "insert text[69:69] --> decoded_text[99:100] '' --> ' '", + "replace text[72:75] --> decoded_text[103:110] '하지만' --> '하지만'", + "replace text[76:79] --> decoded_text[111:119] '아직은' --> '아직은'", + "replace text[80:84] --> decoded_text[120:128] '트레이드' --> '트레이드'", + "replace text[85:88] --> decoded_text[129:134] '당시의' --> '[UNK]'", + "replace text[89:93] --> decoded_text[135:144] '기대치를' --> '기대치를'", + "replace text[94:98] --> decoded_text[145:153] '보여주지' --> '보여주지'", + "replace text[99:102] --> decoded_text[154:159] '못하고' --> '[UNK]'", + "replace text[103:105] --> decoded_text[160:165] '있다' --> '[UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, [UNK] e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 [UNK] 한다.", + "diff": [ + "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'", + "replace text[8:10] --> decoded_text[16:21] '팀이' --> '팀이'", + "replace text[11:15] --> decoded_text[22:33] '준결승에' --> '준결승에'", + "replace text[16:19] --> decoded_text[34:41] '오른다' --> '오른다'", + "replace text[21:23] --> decoded_text[43:49] '결국' --> '결국'", + "replace text[24:25] --> decoded_text[50:51] 'A' --> 'a'", + "replace text[27:29] --> decoded_text[53:56] 'B조' --> 'b조'", + "replace text[30:33] --> decoded_text[57:62] '1위는' --> '[UNK]'", + "replace text[36:37] --> decoded_text[65:69] '강' --> '강 '", + "insert text[38:38] --> decoded_text[70:71] '' --> ' '", + "replace text[39:40] --> decoded_text[72:76] '강' --> '강 '", + "replace text[41:45] --> decoded_text[77:88] '결승으로' --> ' 결승으로'", + "replace text[47:50] --> decoded_text[90:98] '경기를' --> '경기를'", + "replace text[51:55] --> decoded_text[99:108] '치르지만' --> '치르지만'", + "replace text[57:58] --> decoded_text[110:111] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[113:114] 'D' --> 'd'", + "replace text[63:71] --> decoded_text[116:121] '황금의제국카지노' --> '[UNK]'", + "replace text[72:73] --> decoded_text[122:123] 'E' --> 'e'", + "replace text[75:77] --> decoded_text[125:128] 'F조' --> 'f조'", + "replace text[78:81] --> decoded_text[129:134] '1위는' --> '[UNK]'", + "replace text[82:84] --> decoded_text[135:139] '주소' --> '주소'", + "replace text[87:88] --> decoded_text[142:146] '강' --> '강 '", + "insert text[89:89] --> decoded_text[147:148] '' --> ' '", + "replace text[90:91] --> decoded_text[149:153] '강' --> '강 '", + "delete text[92:99] --> decoded_text[154:154] '4강-결승으로' --> ''", + "replace text[101:104] --> decoded_text[156:159] '경기를' --> '강'", + "replace text[105:107] --> decoded_text[160:161] '해야' --> '-'", + "replace text[108:110] --> decoded_text[162:194] '한다' --> '결승으로 4경기를 [UNK] 한다'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] 눈길을 주소 [UNK] [UNK] 한 [UNK] [UNK]. [UNK] [UNK] 매니저 일을 하고 [UNK] 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 [UNK], [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", + "replace text[5:8] --> decoded_text[6:15] '눈길을' --> '눈길을'", + "replace text[9:11] --> decoded_text[16:20] '주소' --> '주소'", + "replace text[12:13] --> decoded_text[21:26] '끈' --> '[UNK]'", + "replace text[14:16] --> decoded_text[27:32] '것은' --> '[UNK]'", + "replace text[17:18] --> decoded_text[33:36] '한' --> '한'", + "replace text[19:24] --> decoded_text[37:42] '신인배우의' --> '[UNK]'", + "replace text[25:30] --> decoded_text[43:48] '매니저였다' --> '[UNK]'", + "replace text[32:40] --> decoded_text[50:55] '황금의제국카지노' --> '[UNK]'", + "replace text[41:44] --> decoded_text[56:61] '배우의' --> '[UNK]'", + "replace text[45:48] --> decoded_text[62:68] '매니저' --> '매니저'", + "replace text[49:51] --> decoded_text[69:75] '일을' --> '일을'", + "replace text[52:54] --> decoded_text[76:80] '하고' --> '하고'", + "replace text[55:58] --> decoded_text[81:86] '있다는' --> '[UNK]'", + "replace text[59:60] --> decoded_text[87:90] '한' --> '한'", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", + "replace text[66:69] --> decoded_text[97:104] '사연에' --> '사연에'", + "replace text[70:74] --> decoded_text[105:125] '박명수는' --> \"박명수는'실시간\"", + "insert text[75:75] --> decoded_text[126:140] '' --> '검색어 [UNK]'", + "replace text[76:79] --> decoded_text[141:144] '실시간' --> '를'", + "replace text[80:96] --> decoded_text[145:150] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", + "replace text[98:103] --> decoded_text[152:157] '통화연결을' --> '[UNK]'", + "replace text[104:106] --> decoded_text[158:163] '했다' --> '[UNK]'" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "하지만이번 [UNK] 시즌, [UNK] [UNK] 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 ‘ 빅 사이닝 ’ 을 통해 [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'", + "replace text[6:14] --> decoded_text[13:18] '황금의제국카지노' --> '[UNK]'", + "replace text[15:17] --> decoded_text[19:24] '시즌' --> '시즌'", + "replace text[19:23] --> decoded_text[26:31] '호날두와' --> '[UNK]'", + "replace text[24:28] --> decoded_text[32:37] '이과인이' --> '[UNK]'", + "replace text[29:31] --> decoded_text[38:42] '다시' --> '다시'", + "replace text[32:34] --> decoded_text[43:47] '주소' --> '주소'", + "replace text[35:39] --> decoded_text[48:53] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[54:60] '먹는' --> '먹는'", + "replace text[43:45] --> decoded_text[61:66] '일이' --> '일이'", + "replace text[46:50] --> decoded_text[67:72] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[74:83] '호날두가' --> '호날두가'", + "delete text[58:59] --> decoded_text[85:85] '빅' --> ''", + "replace text[60:63] --> decoded_text[86:98] '사이닝' --> '빅 사이닝 '", + "delete text[64:65] --> decoded_text[99:99] '을' --> ''", + "replace text[66:68] --> decoded_text[100:103] '통해' --> '을'", + "replace text[69:74] --> decoded_text[104:109] '유벤투스로' --> '통해'", + "replace text[75:78] --> decoded_text[110:115] '옮겼기' --> '[UNK]'", + "replace text[79:83] --> decoded_text[116:127] '때문이다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "[UNK] 시범경기를 [UNK] 홍천에 [UNK] 주소 [UNK].", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", + "replace text[12:17] --> decoded_text[6:19] '시범경기를' --> '시범경기를'", + "replace text[18:20] --> decoded_text[20:25] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[26:34] '홍천에' --> '홍천에'", + "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", + "replace text[34:36] --> decoded_text[41:45] '주소' --> '주소'", + "replace text[37:39] --> decoded_text[46:51] '왔다' --> '[UNK]'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "사실자매가 나란히 [UNK] [UNK] 한다는 게 [UNK] [UNK] 한데, 주소 둘 사이에는 [UNK] [UNK] [UNK]. 마치 하루에 한 [UNK] 만나는 친구 [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'", + "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'", + "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[26:31] '인터뷰를' --> '[UNK]'", + "replace text[18:21] --> decoded_text[32:40] '한다는' --> '한다는'", + "replace text[22:23] --> decoded_text[41:43] '게' --> '게'", + "replace text[24:28] --> decoded_text[44:49] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[50:55] '법도' --> '[UNK]'", + "replace text[32:34] --> decoded_text[56:61] '한데' --> '한데'", + "replace text[36:38] --> decoded_text[63:67] '주소' --> '주소'", + "replace text[39:40] --> decoded_text[68:71] '둘' --> '둘'", + "replace text[41:45] --> decoded_text[72:81] '사이에는' --> '사이에는'", + "replace text[46:48] --> decoded_text[82:87] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[88:93] '거리낌도' --> '[UNK]'", + "replace text[54:57] --> decoded_text[94:99] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[101:105] '마치' --> '마치'", + "replace text[62:65] --> decoded_text[106:112] '하루에' --> '하루에'", + "replace text[66:67] --> decoded_text[113:116] '한' --> '한'", + "replace text[68:70] --> decoded_text[117:122] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[123:131] '만나는' --> '만나는'", + "replace text[75:77] --> decoded_text[132:137] '친구' --> '친구'", + "replace text[78:80] --> decoded_text[138:143] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[144:149] '느낌이' --> '[UNK]'", + "replace text[85:93] --> decoded_text[150:155] '황금의제국카지노' --> '[UNK]'", + "replace text[94:97] --> decoded_text[156:161] '강했다' --> '[UNK]'" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json index 0a4d7d69bd82a73c8899c6c9ec1535857ebae112..89d3ea07fb7fd1578d114086c0fc3c2916a42047 100644 --- a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json @@ -1,593 +1,593 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ 斯 利 [UNK] [UNK] 2012 年 加 入 [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 理 一 [UNK] , [UNK] [UNK] [UNK] 公 司 在 [UNK] [UNK] [UNK] 国 际 市 场 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] 以 [UNK] 的 业 [UNK] 。 [UNK] [UNK] 斯 [UNK] 福 大 学 的 [UNK] 业 生 , [UNK] [UNK] [UNK] 用 [UNK] [UNK] 在 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] 门 [UNK] [UNK] 到 山 西 [UNK] [UNK] [UNK] 京 现 代 [UNK] [UNK] 4s [UNK] 得 [UNK] , [UNK] 内 [UNK] 动 [UNK] [UNK] 有 现 [UNK] [UNK] [UNK] , 现 [UNK] [UNK] [UNK] [UNK] 可 [UNK] [UNK] 最 高 6000 元 优 [UNK] [UNK] [UNK] , [UNK] 体 的 [UNK] [UNK] 和 [UNK] [UNK] 情 [UNK] [UNK] [UNK] 下 [UNK] , [UNK] 时 [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] 可 [UNK] 电 4008112233 [UNK] 3456 [UNK] [UNK] :", - "diff": [ - "replace text[0:7] --> decoded_text[0:42] '卍招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[8:9] --> decoded_text[43:50] '卍' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[51:52] '' --> ' '", - "insert text[14:14] --> decoded_text[56:57] '' --> ' '", - "insert text[26:26] --> decoded_text[69:70] '' --> ' '", - "insert text[29:29] --> decoded_text[73:74] '' --> ' '", - "replace text[30:32] --> decoded_text[75:88] '卡尔' --> ' [UNK] [UNK] '", - "insert text[33:33] --> decoded_text[89:90] '' --> ' '", - "insert text[34:34] --> decoded_text[91:92] '' --> ' '", - "replace text[35:37] --> decoded_text[93:106] '姆于' --> ' [UNK] [UNK] '", - "insert text[41:41] --> decoded_text[110:111] '' --> ' '", - "insert text[42:42] --> decoded_text[112:113] '' --> ' '", - "insert text[43:43] --> decoded_text[114:115] '' --> ' '", - "replace text[44:48] --> decoded_text[116:141] '塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[142:143] '' --> ' '", - "replace text[50:54] --> decoded_text[144:169] '担任总经' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[55:55] --> decoded_text[170:171] '' --> ' '", - "replace text[56:57] --> decoded_text[172:179] '职' --> ' [UNK] '", - "replace text[58:61] --> decoded_text[180:199] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[200:201] '' --> ' '", - "insert text[63:63] --> decoded_text[202:203] '' --> ' '", - "replace text[64:67] --> decoded_text[204:223] '印度及' --> ' [UNK] [UNK] [UNK] '", - "insert text[68:68] --> decoded_text[224:225] '' --> ' '", - "insert text[69:69] --> decoded_text[226:227] '' --> ' '", - "insert text[70:70] --> decoded_text[228:229] '' --> ' '", - "insert text[71:71] --> decoded_text[230:231] '' --> ' '", - "replace text[72:75] --> decoded_text[232:251] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[76:78] --> decoded_text[252:265] '路虎' --> ' [UNK] [UNK] '", - "replace text[79:80] --> decoded_text[266:273] '外' --> ' [UNK] '", - "insert text[81:81] --> decoded_text[274:275] '' --> ' '", - "replace text[82:83] --> decoded_text[276:283] '务' --> ' [UNK] '", - "replace text[84:86] --> decoded_text[284:297] '这位' --> ' [UNK] [UNK] '", - "replace text[87:88] --> decoded_text[298:305] '坦' --> ' [UNK] '", - "insert text[89:89] --> decoded_text[306:307] '' --> ' '", - "insert text[90:90] --> decoded_text[308:309] '' --> ' '", - "insert text[91:91] --> decoded_text[310:311] '' --> ' '", - "replace text[92:93] --> decoded_text[312:319] '毕' --> ' [UNK] '", - "insert text[94:94] --> decoded_text[320:321] '' --> ' '", - "insert text[95:95] --> decoded_text[322:323] '' --> ' '", - "replace text[96:99] --> decoded_text[324:343] '曾任通' --> ' [UNK] [UNK] [UNK] '", - "replace text[100:102] --> decoded_text[344:357] '汽车' --> ' [UNK] [UNK] '", - "insert text[103:103] --> decoded_text[358:359] '' --> ' '", - "insert text[104:104] --> decoded_text[360:361] '' --> ' '", - "insert text[105:105] --> decoded_text[362:363] '' --> ' '", - "replace text[106:107] --> decoded_text[364:371] '资' --> ' [UNK] '", - "insert text[108:108] --> decoded_text[372:373] '' --> ' '", - "insert text[109:109] --> decoded_text[374:375] '' --> ' '", - "insert text[110:110] --> decoded_text[376:377] '' --> ' '", - "replace text[111:112] --> decoded_text[378:385] '近' --> ' [UNK] '", - "insert text[113:113] --> decoded_text[386:387] '' --> ' '", - "replace text[114:117] --> decoded_text[388:407] '编辑专' --> ' [UNK] [UNK] [UNK] '", - "replace text[118:120] --> decoded_text[408:421] '联系' --> ' [UNK] [UNK] '", - "insert text[121:121] --> decoded_text[422:423] '' --> ' '", - "insert text[122:122] --> decoded_text[424:425] '' --> ' '", - "replace text[123:126] --> decoded_text[426:445] '传奇北' --> ' [UNK] [UNK] [UNK] '", - "insert text[127:127] --> decoded_text[446:447] '' --> ' '", - "insert text[128:128] --> decoded_text[448:449] '' --> ' '", - "replace text[129:131] --> decoded_text[450:463] '汽车' --> ' [UNK] [UNK] '", - "replace text[132:134] --> decoded_text[464:472] 'S店' --> 's [UNK] '", - "replace text[135:136] --> decoded_text[473:480] '知' --> ' [UNK] '", - "replace text[137:138] --> decoded_text[481:488] '店' --> ' [UNK] '", - "replace text[139:140] --> decoded_text[489:496] '朗' --> ' [UNK] '", - "replace text[141:143] --> decoded_text[497:510] '车型' --> ' [UNK] [UNK] '", - "insert text[144:144] --> decoded_text[511:512] '' --> ' '", - "replace text[145:148] --> decoded_text[513:532] '车供应' --> ' [UNK] [UNK] [UNK] '", - "insert text[149:149] --> decoded_text[533:534] '' --> ' '", - "replace text[150:154] --> decoded_text[535:560] '阶段购车' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[155:157] --> decoded_text[561:574] '享受' --> ' [UNK] [UNK] '", - "insert text[158:158] --> decoded_text[575:576] '' --> ' '", - "insert text[159:159] --> decoded_text[577:578] '' --> ' '", - "insert text[163:163] --> decoded_text[582:583] '' --> ' '", - "insert text[164:164] --> decoded_text[584:585] '' --> ' '", - "replace text[165:168] --> decoded_text[586:605] '惠幅度' --> ' [UNK] [UNK] [UNK] '", - "replace text[169:170] --> decoded_text[606:613] '具' --> ' [UNK] '", - "insert text[171:171] --> decoded_text[614:615] '' --> ' '", - "replace text[172:174] --> decoded_text[616:629] '车型' --> ' [UNK] [UNK] '", - "replace text[175:177] --> decoded_text[630:643] '价格' --> ' [UNK] [UNK] '", - "replace text[178:181] --> decoded_text[644:663] '况请见' --> ' [UNK] [UNK] [UNK] '", - "replace text[182:183] --> decoded_text[664:671] '表' --> ' [UNK] '", - "replace text[184:185] --> decoded_text[672:679] '同' --> ' [UNK] '", - "replace text[186:189] --> decoded_text[680:699] '感兴趣' --> ' [UNK] [UNK] [UNK] '", - "replace text[190:193] --> decoded_text[700:719] '朋友还' --> ' [UNK] [UNK] [UNK] '", - "replace text[194:195] --> decoded_text[720:727] '致' --> ' [UNK] '", - "insert text[196:196] --> decoded_text[728:729] '' --> ' '", - "replace text[206:207] --> decoded_text[739:746] '转' --> ' [UNK] '", - "replace text[211:213] --> decoded_text[750:763] '详询' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 94, - "oov_ratio": 0.4392523364485981, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"卡\", \"尔\", \"姆\", \"于\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"职\", \"并\", \"负\", \"责\", \"印\", \"度\", \"及\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"外\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"联\", \"系\", \"传\", \"奇\", \"北\", \"S\", \"店\", \"知\", \"朗\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"享\", \"受\", \"惠\", \"幅\", \"具\", \"价\", \"格\", \"况\", \"请\", \"见\", \"表\", \"同\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"转\", \"详\", \"询\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 个 [UNK] [UNK] 美 国 大 [UNK] 《 [UNK] 福 [UNK] [UNK] 站 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] 得 [UNK] [UNK] 事 官 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] 能 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] 斯 [UNK] [UNK] 的 中 国 [UNK] [UNK] [UNK] 为 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 在 [UNK] [UNK] 斯 。 在 [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 了 [UNK] 心 动 [UNK] 的 [UNK] 小 时 , [UNK] [UNK] 在 [UNK] 机 [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:16] '类似' --> ' [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[17:18] '' --> ' '", - "insert text[6:6] --> decoded_text[19:20] '' --> ' '", - "replace text[7:8] --> decoded_text[21:28] '片' --> ' [UNK] '", - "replace text[9:10] --> decoded_text[29:36] '幸' --> ' [UNK] '", - "replace text[11:13] --> decoded_text[37:50] '终点' --> ' [UNK] [UNK] '", - "insert text[14:14] --> decoded_text[51:52] '' --> ' '", - "insert text[15:15] --> decoded_text[53:54] '' --> ' '", - "replace text[16:19] --> decoded_text[55:74] '案例令' --> ' [UNK] [UNK] [UNK] '", - "insert text[20:20] --> decoded_text[75:76] '' --> ' '", - "replace text[21:24] --> decoded_text[77:96] '驻圣彼' --> ' [UNK] [UNK] [UNK] '", - "replace text[25:27] --> decoded_text[97:110] '堡领' --> ' [UNK] [UNK] '", - "insert text[28:28] --> decoded_text[111:112] '' --> ' '", - "replace text[29:35] --> decoded_text[113:150] '胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[36:38] --> decoded_text[151:164] '由于' --> ' [UNK] [UNK] '", - "insert text[39:39] --> decoded_text[165:166] '' --> ' '", - "replace text[40:41] --> decoded_text[167:174] '未' --> ' [UNK] '", - "replace text[42:48] --> decoded_text[175:212] '仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[49:51] --> decoded_text[213:226] '效期' --> ' [UNK] [UNK] '", - "insert text[52:52] --> decoded_text[227:228] '' --> ' '", - "replace text[53:57] --> decoded_text[229:254] '对赴俄罗' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[58:60] --> decoded_text[255:268] '旅游' --> ' [UNK] [UNK] '", - "insert text[61:61] --> decoded_text[269:270] '' --> ' '", - "insert text[62:62] --> decoded_text[271:272] '' --> ' '", - "replace text[63:66] --> decoded_text[273:292] '夫妇因' --> ' [UNK] [UNK] [UNK] '", - "replace text[67:75] --> decoded_text[293:342] '签证过期差点被困' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[76:78] --> decoded_text[343:356] '俄罗' --> ' [UNK] [UNK] '", - "insert text[79:79] --> decoded_text[357:358] '' --> ' '", - "insert text[80:80] --> decoded_text[359:360] '' --> ' '", - "replace text[81:83] --> decoded_text[361:374] '胡滨' --> ' [UNK] [UNK] '", - "replace text[84:86] --> decoded_text[375:388] '协助' --> ' [UNK] [UNK] '", - "insert text[87:87] --> decoded_text[389:390] '' --> ' '", - "replace text[88:94] --> decoded_text[391:428] '这对夫妇经历' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[95:96] --> decoded_text[429:436] '惊' --> ' [UNK] '", - "insert text[97:97] --> decoded_text[437:438] '' --> ' '", - "replace text[98:99] --> decoded_text[439:446] '魄' --> ' [UNK] '", - "replace text[100:101] --> decoded_text[447:454] '3' --> ' [UNK] '", - "insert text[102:102] --> decoded_text[455:456] '' --> ' '", - "insert text[103:103] --> decoded_text[457:458] '' --> ' '", - "replace text[104:106] --> decoded_text[459:472] '终于' --> ' [UNK] [UNK] '", - "replace text[107:108] --> decoded_text[473:480] '飞' --> ' [UNK] '", - "replace text[109:111] --> decoded_text[481:494] '起飞' --> ' [UNK] [UNK] '", - "replace text[112:113] --> decoded_text[495:502] '5' --> ' [UNK] '", - "replace text[114:115] --> decoded_text[503:510] '钟' --> ' [UNK] '", - "replace text[116:117] --> decoded_text[511:518] '登' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[519:532] '返程' --> ' [UNK] [UNK] '", - "replace text[121:123] --> decoded_text[533:546] '航班' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 75, - "oov_ratio": 0.6048387096774194, - "oov_charset": "[\"类\", \"似\", \"片\", \"幸\", \"终\", \"点\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"堡\", \"领\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"过\", \"差\", \"被\", \"困\", \"协\", \"助\", \"这\", \"经\", \"历\", \"惊\", \"魄\", \"3\", \"飞\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] [UNK] [UNK] 在 [UNK] [UNK] 中 [UNK] [UNK] , 中 法 [UNK] [UNK] 开 [UNK] 了 中 法 [UNK] 个 [UNK] 大 国 家 [UNK] 好 [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 了 不 [UNK] 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 际 [UNK] [UNK] [UNK] [UNK] [UNK] 生 了 [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", - "diff": [ - "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[7:10] --> decoded_text[37:56] '张德江' --> ' [UNK] [UNK] [UNK] '", - "replace text[11:13] --> decoded_text[57:70] '致辞' --> ' [UNK] [UNK] '", - "replace text[14:16] --> decoded_text[71:84] '表示' --> ' [UNK] [UNK] '", - "insert text[17:17] --> decoded_text[85:86] '' --> ' '", - "insert text[18:18] --> decoded_text[87:88] '' --> ' '", - "replace text[19:21] --> decoded_text[89:102] '建交' --> ' [UNK] [UNK] '", - "replace text[22:23] --> decoded_text[103:110] '启' --> ' [UNK] '", - "insert text[24:24] --> decoded_text[111:112] '' --> ' '", - "insert text[25:25] --> decoded_text[113:114] '' --> ' '", - "replace text[26:27] --> decoded_text[115:122] '两' --> ' [UNK] '", - "replace text[28:29] --> decoded_text[123:130] '伟' --> ' [UNK] '", - "insert text[30:30] --> decoded_text[131:132] '' --> ' '", - "insert text[31:31] --> decoded_text[133:134] '' --> ' '", - "replace text[32:33] --> decoded_text[135:142] '友' --> ' [UNK] '", - "replace text[34:36] --> decoded_text[143:156] '关系' --> ' [UNK] [UNK] '", - "insert text[37:37] --> decoded_text[157:158] '' --> ' '", - "replace text[38:39] --> decoded_text[159:166] '纪' --> ' [UNK] '", - "insert text[40:40] --> decoded_text[167:168] '' --> ' '", - "replace text[41:42] --> decoded_text[169:176] '树' --> ' [UNK] '", - "insert text[43:43] --> decoded_text[177:178] '' --> ' '", - "insert text[44:44] --> decoded_text[179:180] '' --> ' '", - "replace text[45:46] --> decoded_text[181:188] '同' --> ' [UNK] '", - "insert text[47:47] --> decoded_text[189:190] '' --> ' '", - "replace text[48:50] --> decoded_text[191:204] '制度' --> ' [UNK] [UNK] '", - "insert text[51:51] --> decoded_text[205:206] '' --> ' '", - "insert text[52:52] --> decoded_text[207:208] '' --> ' '", - "insert text[53:53] --> decoded_text[209:210] '' --> ' '", - "replace text[54:56] --> decoded_text[211:224] '共处' --> ' [UNK] [UNK] '", - "insert text[57:57] --> decoded_text[225:226] '' --> ' '", - "replace text[58:60] --> decoded_text[227:240] '典范' --> ' [UNK] [UNK] '", - "replace text[61:62] --> decoded_text[241:248] '对' --> ' [UNK] '", - "insert text[63:63] --> decoded_text[249:250] '' --> ' '", - "replace text[64:69] --> decoded_text[251:282] '战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[70:70] --> decoded_text[283:284] '' --> ' '", - "replace text[71:72] --> decoded_text[285:292] '重' --> ' [UNK] '", - "replace text[73:76] --> decoded_text[293:312] '而深远' --> ' [UNK] [UNK] [UNK] '", - "replace text[77:79] --> decoded_text[313:326] '影响' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 42, - "oov_ratio": 0.525, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"张\", \"德\", \"江\", \"致\", \"辞\", \"表\", \"示\", \"建\", \"交\", \"启\", \"两\", \"伟\", \"友\", \"关\", \"系\", \"纪\", \"树\", \"同\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] 斯 [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 马 来 西 亚 、 [UNK] [UNK] 、 [UNK] 国 、 [UNK] [UNK] 、 美 国 工 作 。 1999 年 , [UNK] 成 为 [UNK] 合 国 [UNK] [UNK] [UNK] [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", - "diff": [ - "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[7:8] --> decoded_text[37:44] '科' --> ' [UNK] '", - "replace text[9:12] --> decoded_text[45:64] '格罗夫' --> ' [UNK] [UNK] [UNK] '", - "replace text[13:19] --> decoded_text[65:102] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[20:24] --> decoded_text[103:128] '曾被派往' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[129:130] '' --> ' '", - "insert text[26:26] --> decoded_text[131:132] '' --> ' '", - "insert text[27:27] --> decoded_text[133:134] '' --> ' '", - "insert text[28:28] --> decoded_text[135:136] '' --> ' '", - "replace text[29:31] --> decoded_text[137:150] '越南' --> ' [UNK] [UNK] '", - "replace text[32:33] --> decoded_text[151:158] '英' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[159:160] '' --> ' '", - "replace text[35:37] --> decoded_text[161:174] '印度' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[175:176] '' --> ' '", - "insert text[39:39] --> decoded_text[177:178] '' --> ' '", - "insert text[40:40] --> decoded_text[179:180] '' --> ' '", - "insert text[41:41] --> decoded_text[181:182] '' --> ' '", - "insert text[42:42] --> decoded_text[183:184] '' --> ' '", - "insert text[43:43] --> decoded_text[185:186] '' --> ' '", - "insert text[47:47] --> decoded_text[190:191] '' --> ' '", - "insert text[48:48] --> decoded_text[192:193] '' --> ' '", - "replace text[49:50] --> decoded_text[194:201] '他' --> ' [UNK] '", - "insert text[51:51] --> decoded_text[202:203] '' --> ' '", - "replace text[52:53] --> decoded_text[204:211] '联' --> ' [UNK] '", - "insert text[54:54] --> decoded_text[212:213] '' --> ' '", - "replace text[55:59] --> decoded_text[214:239] '驻东帝汶' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[60:61] --> decoded_text[240:247] '队' --> ' [UNK] '", - "replace text[62:63] --> decoded_text[248:255] '令' --> ' [UNK] '", - "replace text[64:71] --> decoded_text[256:299] '监督东帝汶向独' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[300:301] '' --> ' '", - "insert text[73:73] --> decoded_text[302:303] '' --> ' '", - "insert text[74:74] --> decoded_text[304:305] '' --> ' '", - "replace text[75:77] --> decoded_text[306:319] '过渡' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 42, - "oov_ratio": 0.5384615384615384, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"科\", \"格\", \"罗\", \"夫\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"越\", \"南\", \"英\", \"印\", \"度\", \"他\", \"联\", \"驻\", \"东\", \"帝\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 电 [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , 在 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 美 国 [UNK] 乐 市 场 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 [UNK] [UNK] ( ringostarr ) [UNK] 发 [UNK] [UNK] 成 [UNK] [UNK] , [UNK] 得 [UNK] [UNK] [UNK] [UNK] 。 为 了 [UNK] [UNK] [UNK] 事 , 大 会 [UNK] 来 金 [UNK] [UNK] [UNK] [UNK] [UNK] 亚 • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] [UNK] [UNK] 二 人 出 场 , 保 [UNK] 在 [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 [UNK] 《 queenieeye 》 , [UNK] [UNK] [UNK] 到 [UNK] 者 [UNK] [UNK] [UNK] 作 《 photograph 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 日 的 美 好 情 [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "insert text[5:5] --> decoded_text[8:9] '' --> ' '", - "replace text[6:7] --> decoded_text[10:17] '据' --> ' [UNK] '", - "replace text[8:9] --> decoded_text[18:25] '港' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[26:27] '' --> ' '", - "replace text[11:12] --> decoded_text[28:35] '报' --> ' [UNK] '", - "replace text[13:16] --> decoded_text[36:51] '消息,' --> ' [UNK] [UNK] , '", - "replace text[17:24] --> decoded_text[52:95] '庆祝披头士进军' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[96:97] '' --> ' '", - "replace text[26:27] --> decoded_text[98:105] '音' --> ' [UNK] '", - "insert text[28:28] --> decoded_text[106:107] '' --> ' '", - "insert text[29:29] --> decoded_text[108:109] '' --> ' '", - "insert text[30:30] --> decoded_text[110:111] '' --> ' '", - "replace text[32:33] --> decoded_text[113:120] '周' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[121:122] '' --> ' '", - "replace text[35:37] --> decoded_text[123:136] '纪念' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[137:138] '' --> ' '", - "replace text[39:42] --> decoded_text[139:154] ',格莱' --> ' , [UNK] [UNK] '", - "replace text[43:45] --> decoded_text[155:168] '向两' --> ' [UNK] [UNK] '", - "replace text[46:48] --> decoded_text[169:182] '仅存' --> ' [UNK] [UNK] '", - "replace text[49:50] --> decoded_text[183:190] '员' --> ' [UNK] '", - "insert text[51:51] --> decoded_text[191:192] '' --> ' '", - "replace text[52:58] --> decoded_text[193:230] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[59:61] --> decoded_text[231:244] '史达' --> ' [UNK] [UNK] '", - "replace text[62:63] --> decoded_text[245:247] 'R' --> ' r'", - "replace text[67:68] --> decoded_text[251:252] 'S' --> 's'", - "insert text[72:72] --> decoded_text[256:257] '' --> ' '", - "replace text[73:74] --> decoded_text[258:265] '颁' --> ' [UNK] '", - "replace text[75:77] --> decoded_text[266:279] '终身' --> ' [UNK] [UNK] '", - "replace text[78:82] --> decoded_text[280:301] '就奖,显' --> ' [UNK] [UNK] , [UNK] '", - "replace text[83:87] --> decoded_text[302:327] '别具意义' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[88:88] --> decoded_text[328:329] '' --> ' '", - "insert text[89:89] --> decoded_text[330:331] '' --> ' '", - "replace text[90:93] --> decoded_text[332:351] '隆重其' --> ' [UNK] [UNK] [UNK] '", - "replace text[94:95] --> decoded_text[352:355] ',' --> ' , '", - "insert text[96:96] --> decoded_text[356:357] '' --> ' '", - "replace text[97:98] --> decoded_text[358:365] '请' --> ' [UNK] '", - "insert text[99:99] --> decoded_text[366:367] '' --> ' '", - "replace text[100:105] --> decoded_text[368:399] '像影后茱莉' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[106:106] --> decoded_text[400:401] '' --> ' '", - "insert text[107:107] --> decoded_text[402:403] '' --> ' '", - "replace text[108:111] --> decoded_text[404:423] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", - "replace text[112:113] --> decoded_text[424:426] 'J' --> ' j'", - "replace text[117:118] --> decoded_text[430:431] 'R' --> 'r'", - "insert text[124:124] --> decoded_text[437:438] '' --> ' '", - "replace text[125:129] --> decoded_text[439:464] '负责介绍' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[130:130] --> decoded_text[465:466] '' --> ' '", - "insert text[131:131] --> decoded_text[467:468] '' --> ' '", - "insert text[132:132] --> decoded_text[469:470] '' --> ' '", - "replace text[133:134] --> decoded_text[471:474] ',' --> ' , '", - "replace text[135:136] --> decoded_text[475:482] '罗' --> ' [UNK] '", - "replace text[137:139] --> decoded_text[483:496] '拍档' --> ' [UNK] [UNK] '", - "replace text[140:142] --> decoded_text[497:510] '鼓声' --> ' [UNK] [UNK] '", - "replace text[143:144] --> decoded_text[511:518] '应' --> ' [UNK] '", - "replace text[145:149] --> decoded_text[519:540] ',先献唱' --> ' , [UNK] [UNK] [UNK] '", - "replace text[150:151] --> decoded_text[541:548] '歌' --> ' [UNK] '", - "replace text[152:153] --> decoded_text[549:551] 'Q' --> ' q'", - "replace text[159:160] --> decoded_text[557:558] 'E' --> 'e'", - "insert text[162:162] --> decoded_text[560:561] '' --> ' '", - "replace text[163:167] --> decoded_text[562:583] ',然后轮' --> ' , [UNK] [UNK] [UNK] '", - "replace text[168:169] --> decoded_text[584:591] '后' --> ' [UNK] '", - "replace text[170:173] --> decoded_text[592:611] '演绎旧' --> ' [UNK] [UNK] [UNK] '", - "insert text[174:174] --> decoded_text[612:613] '' --> ' '", - "replace text[175:176] --> decoded_text[614:616] 'P' --> ' p'", - "insert text[185:185] --> decoded_text[625:626] '' --> ' '", - "replace text[186:194] --> decoded_text[627:672] ',带领歌迷重温昔' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[195:195] --> decoded_text[673:674] '' --> ' '", - "insert text[196:196] --> decoded_text[675:676] '' --> ' '", - "insert text[197:197] --> decoded_text[677:678] '' --> ' '", - "insert text[198:198] --> decoded_text[679:680] '' --> ' '", - "replace text[199:200] --> decoded_text[681:688] '怀' --> ' [UNK] '" - ], - "n_oov_chars": 89, - "oov_ratio": 0.4427860696517413, - "oov_charset": "[\"据\", \"港\", \"报\", \"消\", \"息\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"音\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"史\", \"达\", \"R\", \"S\", \"颁\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"别\", \"具\", \"意\", \"义\", \"隆\", \"重\", \"其\", \"请\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"介\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"歌\", \"Q\", \"E\", \"然\", \"轮\", \"演\", \"绎\", \"旧\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "[UNK] 牌 [UNK] [UNK] [UNK] 有 [UNK] 到 [UNK] [UNK] 的 地 [UNK] , [UNK] 者 全 [UNK] 的 [UNK] [UNK] [UNK] 是 14 元 , [UNK] 司 机 到 [UNK] 21 元 , [UNK] [UNK] , 司 机 [UNK] [UNK] 者 7 元 , [UNK] [UNK] [UNK] 前 [UNK] [UNK] 的 1 元 , [UNK] 者 [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] 了 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '佛' --> '[UNK] '", - "replace text[2:5] --> decoded_text[7:26] '绳哪里' --> ' [UNK] [UNK] [UNK] '", - "replace text[6:7] --> decoded_text[27:34] '卖' --> ' [UNK] '", - "replace text[8:11] --> decoded_text[35:50] '达目的' --> ' [UNK] [UNK] 的 '", - "replace text[12:15] --> decoded_text[51:66] '后,记' --> ' [UNK] , [UNK] '", - "insert text[16:16] --> decoded_text[67:68] '' --> ' '", - "replace text[17:22] --> decoded_text[69:96] '程的总车费' --> ' [UNK] 的 [UNK] [UNK] [UNK] '", - "insert text[23:23] --> decoded_text[97:98] '' --> ' '", - "replace text[25:28] --> decoded_text[100:111] '元,但' --> ' 元 , [UNK] '", - "insert text[29:29] --> decoded_text[112:113] '' --> ' '", - "insert text[30:30] --> decoded_text[114:115] '' --> ' '", - "replace text[31:32] --> decoded_text[116:123] '账' --> ' [UNK] '", - "replace text[34:39] --> decoded_text[125:144] '元,因此,' --> ' 元 , [UNK] [UNK] , '", - "insert text[40:40] --> decoded_text[145:146] '' --> ' '", - "replace text[41:43] --> decoded_text[147:160] '给记' --> ' [UNK] [UNK] '", - "insert text[44:44] --> decoded_text[161:162] '' --> ' '", - "replace text[45:50] --> decoded_text[163:186] '元,除去之' --> ' 元 , [UNK] [UNK] [UNK] '", - "replace text[51:58] --> decoded_text[187:214] '支付的1元,记' --> ' [UNK] [UNK] 的 1 元 , [UNK] '", - "replace text[59:61] --> decoded_text[215:228] '净赚' --> ' [UNK] [UNK] '", - "replace text[62:68] --> decoded_text[229:258] '元,还免费乘' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", - "insert text[69:69] --> decoded_text[259:260] '' --> ' '", - "replace text[70:73] --> decoded_text[261:280] '应支付' --> ' [UNK] [UNK] [UNK] '", - "replace text[75:78] --> decoded_text[282:293] '元的车' --> ' 元 的 [UNK] '" - ], - "n_oov_chars": 35, - "oov_ratio": 0.4430379746835443, - "oov_charset": "[\"佛\", \"绳\", \"哪\", \"里\", \"卖\", \"达\", \"目\", \"后\", \"记\", \"程\", \"总\", \"车\", \"费\", \"但\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"应\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "[UNK] [UNK] ・ 斯 利 [UNK] [UNK] 2012 年 加 入 [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 理 一 [UNK] , [UNK] [UNK] [UNK] 公 司 在 [UNK] [UNK] [UNK] 国 际 市 场 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] 以 [UNK] 的 业 [UNK] 。 [UNK] [UNK] 斯 [UNK] 福 大 学 的 [UNK] 业 生 , [UNK] [UNK] [UNK] 用 [UNK] [UNK] 在 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] 用 [UNK] [UNK] 公 司 的 [UNK] [UNK] [UNK] 以 [UNK] [UNK] 用 [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] [UNK] )", - "diff": [ - "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", - "insert text[3:3] --> decoded_text[13:14] '' --> ' '", - "insert text[4:4] --> decoded_text[15:16] '' --> ' '", - "replace text[5:7] --> decoded_text[17:30] '姆于' --> ' [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[34:35] '' --> ' '", - "insert text[12:12] --> decoded_text[36:37] '' --> ' '", - "insert text[13:13] --> decoded_text[38:39] '' --> ' '", - "replace text[14:18] --> decoded_text[40:65] '塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[19:19] --> decoded_text[66:67] '' --> ' '", - "replace text[20:24] --> decoded_text[68:93] '担任总经' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[94:95] '' --> ' '", - "replace text[26:27] --> decoded_text[96:103] '职' --> ' [UNK] '", - "replace text[28:31] --> decoded_text[104:123] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[124:125] '' --> ' '", - "insert text[33:33] --> decoded_text[126:127] '' --> ' '", - "replace text[34:37] --> decoded_text[128:147] '印度及' --> ' [UNK] [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[148:149] '' --> ' '", - "insert text[39:39] --> decoded_text[150:151] '' --> ' '", - "insert text[40:40] --> decoded_text[152:153] '' --> ' '", - "insert text[41:41] --> decoded_text[154:155] '' --> ' '", - "replace text[42:45] --> decoded_text[156:175] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[46:48] --> decoded_text[176:189] '路虎' --> ' [UNK] [UNK] '", - "replace text[49:50] --> decoded_text[190:197] '外' --> ' [UNK] '", - "insert text[51:51] --> decoded_text[198:199] '' --> ' '", - "replace text[52:53] --> decoded_text[200:207] '务' --> ' [UNK] '", - "replace text[54:56] --> decoded_text[208:221] '这位' --> ' [UNK] [UNK] '", - "replace text[57:58] --> decoded_text[222:229] '坦' --> ' [UNK] '", - "insert text[59:59] --> decoded_text[230:231] '' --> ' '", - "insert text[60:60] --> decoded_text[232:233] '' --> ' '", - "insert text[61:61] --> decoded_text[234:235] '' --> ' '", - "replace text[62:63] --> decoded_text[236:243] '毕' --> ' [UNK] '", - "insert text[64:64] --> decoded_text[244:245] '' --> ' '", - "insert text[65:65] --> decoded_text[246:247] '' --> ' '", - "replace text[66:69] --> decoded_text[248:267] '曾任通' --> ' [UNK] [UNK] [UNK] '", - "replace text[70:72] --> decoded_text[268:281] '汽车' --> ' [UNK] [UNK] '", - "insert text[73:73] --> decoded_text[282:283] '' --> ' '", - "insert text[74:74] --> decoded_text[284:285] '' --> ' '", - "insert text[75:75] --> decoded_text[286:287] '' --> ' '", - "replace text[76:77] --> decoded_text[288:295] '资' --> ' [UNK] '", - "insert text[78:78] --> decoded_text[296:297] '' --> ' '", - "insert text[79:79] --> decoded_text[298:299] '' --> ' '", - "replace text[80:83] --> decoded_text[300:319] '副总裁' --> ' [UNK] [UNK] [UNK] '", - "insert text[84:84] --> decoded_text[320:321] '' --> ' '", - "replace text[85:87] --> decoded_text[322:335] '汽通' --> ' [UNK] [UNK] '", - "replace text[88:90] --> decoded_text[336:349] '五菱' --> ' [UNK] [UNK] '", - "insert text[91:91] --> decoded_text[350:351] '' --> ' '", - "insert text[92:92] --> decoded_text[352:353] '' --> ' '", - "replace text[93:96] --> decoded_text[354:373] '副总裁' --> ' [UNK] [UNK] [UNK] '", - "replace text[97:99] --> decoded_text[374:387] '及通' --> ' [UNK] [UNK] '", - "replace text[100:104] --> decoded_text[388:413] '汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[105:105] --> decoded_text[414:415] '' --> ' '", - "insert text[106:106] --> decoded_text[416:417] '' --> ' '", - "replace text[107:109] --> decoded_text[418:431] '总裁' --> ' [UNK] [UNK] '", - "insert text[110:110] --> decoded_text[432:433] '' --> ' '", - "insert text[111:111] --> decoded_text[434:435] '' --> ' '", - "replace text[112:114] --> decoded_text[436:449] '赵春' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 56, - "oov_ratio": 0.48695652173913045, - "oov_charset": "[\"卡\", \"尔\", \"姆\", \"于\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"职\", \"并\", \"负\", \"责\", \"印\", \"度\", \"及\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"外\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"赵\", \"春\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 [UNK] [UNK] [UNK] 不 可 能 [UNK] 部 作 品 都 是 [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 时 [UNK] [UNK] 不 [UNK] 情 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 是 人 , 不 是 神 , 人 [UNK] 有 自 [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 我 [UNK] 开 [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] 了 [UNK] [UNK] [UNK] 时 [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] 要 [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] 是 不 是 [UNK] ” [UNK] [UNK] 是 [UNK] 人 。 [UNK] [UNK] 为 [UNK] [UNK] [UNK] 了 [UNK] [UNK] , [UNK] [UNK] 不 一 定 有 [UNK] [UNK] 。", - "diff": [ - "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[21:22] '' --> ' '", - "insert text[6:6] --> decoded_text[23:24] '' --> ' '", - "replace text[7:8] --> decoded_text[25:32] '每' --> ' [UNK] '", - "insert text[9:9] --> decoded_text[33:34] '' --> ' '", - "insert text[10:10] --> decoded_text[35:36] '' --> ' '", - "insert text[11:11] --> decoded_text[37:38] '' --> ' '", - "insert text[12:12] --> decoded_text[39:40] '' --> ' '", - "replace text[13:16] --> decoded_text[41:60] '你喜欢' --> ' [UNK] [UNK] [UNK] '", - "replace text[17:18] --> decoded_text[61:68] '东' --> ' [UNK] '", - "replace text[19:23] --> decoded_text[69:90] ',如果他' --> ' , [UNK] [UNK] [UNK] '", - "insert text[24:24] --> decoded_text[91:92] '' --> ' '", - "replace text[25:27] --> decoded_text[93:106] '控制' --> ' [UNK] [UNK] '", - "replace text[28:29] --> decoded_text[107:114] '住' --> ' [UNK] '", - "replace text[30:37] --> decoded_text[115:154] '绪,就让他骂吧' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:40] --> decoded_text[155:168] '他也' --> ' [UNK] [UNK] '", - "insert text[41:41] --> decoded_text[169:170] '' --> ' '", - "replace text[42:43] --> decoded_text[171:174] ',' --> ' , '", - "insert text[44:44] --> decoded_text[175:176] '' --> ' '", - "insert text[45:45] --> decoded_text[177:178] '' --> ' '", - "replace text[46:47] --> decoded_text[179:182] ',' --> ' , '", - "replace text[48:49] --> decoded_text[183:190] '就' --> ' [UNK] '", - "insert text[50:50] --> decoded_text[191:192] '' --> ' '", - "replace text[51:52] --> decoded_text[193:200] '己' --> ' [UNK] '", - "replace text[53:55] --> decoded_text[201:214] '脾气' --> ' [UNK] [UNK] '", - "replace text[56:65] --> decoded_text[215:266] '他这次执导春晚,对' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", - "replace text[66:67] --> decoded_text[267:274] '也' --> ' [UNK] '", - "replace text[68:69] --> decoded_text[275:282] '骂' --> ' [UNK] '", - "insert text[70:70] --> decoded_text[283:284] '' --> ' '", - "replace text[71:74] --> decoded_text[285:300] '老毕,' --> ' [UNK] [UNK] , '", - "replace text[75:78] --> decoded_text[301:320] '跟你说' --> ' [UNK] [UNK] [UNK] '", - "replace text[79:82] --> decoded_text[321:340] '这么长' --> ' [UNK] [UNK] [UNK] '", - "replace text[83:88] --> decoded_text[341:368] '间,让你走' --> ' [UNK] , [UNK] [UNK] [UNK] '", - "replace text[89:94] --> decoded_text[369:396] '号位,你非' --> ' [UNK] [UNK] , [UNK] [UNK] '", - "replace text[95:96] --> decoded_text[397:404] '走' --> ' [UNK] '", - "replace text[97:103] --> decoded_text[405:438] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[104:107] --> decoded_text[439:458] '较死劲' --> ' [UNK] [UNK] [UNK] '", - "insert text[108:108] --> decoded_text[459:460] '' --> ' '", - "insert text[109:109] --> decoded_text[461:462] '' --> ' '", - "replace text[110:111] --> decoded_text[463:470] '?' --> ' [UNK] '", - "replace text[112:114] --> decoded_text[471:484] '这也' --> ' [UNK] [UNK] '", - "replace text[115:116] --> decoded_text[485:492] '骂' --> ' [UNK] '", - "insert text[117:117] --> decoded_text[493:494] '' --> ' '", - "replace text[118:120] --> decoded_text[495:508] '但因' --> ' [UNK] [UNK] '", - "replace text[121:124] --> decoded_text[509:528] '你非常' --> ' [UNK] [UNK] [UNK] '", - "replace text[125:130] --> decoded_text[529:556] '解他,他也' --> ' [UNK] [UNK] , [UNK] [UNK] '", - "insert text[131:131] --> decoded_text[557:558] '' --> ' '", - "insert text[132:132] --> decoded_text[559:560] '' --> ' '", - "insert text[133:133] --> decoded_text[561:562] '' --> ' '", - "replace text[134:136] --> decoded_text[563:576] '恶意' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 76, - "oov_ratio": 0.5547445255474452, - "oov_charset": "[\"腕\", \"导\", \"演\", \"每\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"控\", \"制\", \"住\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"也\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"老\", \"毕\", \"跟\", \"说\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"常\", \"解\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 不 [UNK] [UNK] 得 多 , [UNK] [UNK] [UNK] [UNK] 得 多 。 有 [UNK] 体 [UNK] 道 , [UNK] [UNK] [UNK] [UNK] 斯 的 年 [UNK] 高 [UNK] 360 万 元 人 [UNK] [UNK] , [UNK] [UNK] [UNK] 年 的 [UNK] [UNK] 是 600 多 万 元 。 用 一 个 [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 万 元 [UNK] 出 [UNK] 了 。", - "diff": [ - "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[7:7] --> decoded_text[37:38] '' --> ' '", - "replace text[8:10] --> decoded_text[39:52] '过挣' --> ' [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[53:54] '' --> ' '", - "replace text[12:17] --> decoded_text[55:82] ',娜姐也花' --> ' , [UNK] [UNK] [UNK] [UNK] '", - "insert text[18:18] --> decoded_text[83:84] '' --> ' '", - "insert text[19:19] --> decoded_text[85:86] '' --> ' '", - "insert text[20:20] --> decoded_text[87:88] '' --> ' '", - "replace text[21:22] --> decoded_text[89:96] '媒' --> ' [UNK] '", - "replace text[23:24] --> decoded_text[97:104] '报' --> ' [UNK] '", - "replace text[25:30] --> decoded_text[105:132] ',教练卡洛' --> ' , [UNK] [UNK] [UNK] [UNK] '", - "insert text[31:31] --> decoded_text[133:134] '' --> ' '", - "insert text[32:32] --> decoded_text[135:136] '' --> ' '", - "replace text[33:34] --> decoded_text[137:144] '薪' --> ' [UNK] '", - "replace text[35:36] --> decoded_text[145:152] '达' --> ' [UNK] '", - "insert text[39:39] --> decoded_text[155:156] '' --> ' '", - "insert text[40:40] --> decoded_text[157:158] '' --> ' '", - "insert text[41:41] --> decoded_text[159:160] '' --> ' '", - "replace text[42:48] --> decoded_text[161:194] '民币,李娜每' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[195:196] '' --> ' '", - "replace text[50:52] --> decoded_text[197:210] '花费' --> ' [UNK] [UNK] '", - "insert text[53:53] --> decoded_text[211:212] '' --> ' '", - "insert text[56:56] --> decoded_text[215:216] '' --> ' '", - "insert text[57:57] --> decoded_text[217:218] '' --> ' '", - "insert text[58:58] --> decoded_text[219:220] '' --> ' '", - "insert text[59:59] --> decoded_text[221:222] '' --> ' '", - "insert text[60:60] --> decoded_text[223:224] '' --> ' '", - "insert text[61:61] --> decoded_text[225:226] '' --> ' '", - "insert text[62:62] --> decoded_text[227:228] '' --> ' '", - "replace text[63:65] --> decoded_text[229:242] '形象' --> ' [UNK] [UNK] '", - "insert text[66:66] --> decoded_text[243:244] '' --> ' '", - "replace text[67:72] --> decoded_text[245:272] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", - "insert text[73:73] --> decoded_text[273:274] '' --> ' '", - "replace text[74:79] --> decoded_text[275:302] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", - "insert text[80:80] --> decoded_text[303:304] '' --> ' '", - "insert text[81:81] --> decoded_text[305:306] '' --> ' '", - "replace text[82:83] --> decoded_text[307:314] '就' --> ' [UNK] '", - "replace text[84:85] --> decoded_text[315:322] '去' --> ' [UNK] '", - "insert text[86:86] --> decoded_text[323:324] '' --> ' '" - ], - "n_oov_chars": 39, - "oov_ratio": 0.4482758620689655, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"过\", \"挣\", \"娜\", \"姐\", \"也\", \"花\", \"媒\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"薪\", \"达\", \"民\", \"币\", \"李\", \"每\", \"费\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 [UNK] 有 一 个 [UNK] [UNK] 人 物 ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 是 心 [UNK] 的 , [UNK] 是 [UNK] 个 人 物 [UNK] [UNK] 得 心 安 理 得 , 理 [UNK] [UNK] [UNK] , 我 [UNK] 到 的 [UNK] 个 的 [UNK] [UNK] 是 [UNK] [UNK] 。 ” [UNK] [UNK] 生 [UNK] [UNK] 者 [UNK] [UNK] [UNK] [UNK] 时 [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 来 , [UNK] 日 [UNK] [UNK] 生 在 [UNK] 出 [UNK] [UNK] 时 , [UNK] 到 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” 得 理 [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", - "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", - "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", - "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", - "replace text[11:12] --> decoded_text[37:44] '里' --> ' [UNK] '", - "insert text[13:13] --> decoded_text[45:46] '' --> ' '", - "insert text[14:14] --> decoded_text[47:48] '' --> ' '", - "replace text[15:17] --> decoded_text[49:62] '反派' --> ' [UNK] [UNK] '", - "insert text[18:18] --> decoded_text[63:64] '' --> ' '", - "insert text[19:19] --> decoded_text[65:66] '' --> ' '", - "replace text[20:24] --> decoded_text[67:92] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:26] --> decoded_text[93:96] ',' --> ' , '", - "replace text[27:30] --> decoded_text[97:112] '般的坏' --> ' [UNK] 的 [UNK] '", - "replace text[31:33] --> decoded_text[113:126] '做坏' --> ' [UNK] [UNK] '", - "insert text[34:34] --> decoded_text[127:128] '' --> ' '", - "insert text[35:35] --> decoded_text[129:130] '' --> ' '", - "insert text[36:36] --> decoded_text[131:132] '' --> ' '", - "replace text[37:41] --> decoded_text[133:150] '虚的,但' --> ' [UNK] 的 , [UNK] '", - "replace text[42:43] --> decoded_text[151:158] '这' --> ' [UNK] '", - "insert text[44:44] --> decoded_text[159:160] '' --> ' '", - "insert text[45:45] --> decoded_text[161:162] '' --> ' '", - "replace text[46:48] --> decoded_text[163:176] '却做' --> ' [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[177:178] '' --> ' '", - "insert text[50:50] --> decoded_text[179:180] '' --> ' '", - "insert text[51:51] --> decoded_text[181:182] '' --> ' '", - "insert text[52:52] --> decoded_text[183:184] '' --> ' '", - "replace text[53:54] --> decoded_text[185:188] ',' --> ' , '", - "replace text[55:59] --> decoded_text[189:210] '直气壮,' --> ' [UNK] [UNK] [UNK] , '", - "replace text[60:61] --> decoded_text[211:218] '遇' --> ' [UNK] '", - "replace text[62:64] --> decoded_text[219:228] '的这' --> ' 的 [UNK] '", - "replace text[65:68] --> decoded_text[229:244] '的哥就' --> ' 的 [UNK] [UNK] '", - "replace text[69:71] --> decoded_text[245:258] '这样' --> ' [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[259:260] '' --> ' '", - "replace text[73:75] --> decoded_text[261:274] '王先' --> ' [UNK] [UNK] '", - "replace text[76:78] --> decoded_text[275:288] '向记' --> ' [UNK] [UNK] '", - "replace text[79:83] --> decoded_text[289:314] '描述经过' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[84:85] --> decoded_text[315:322] '第' --> ' [UNK] '", - "replace text[86:92] --> decoded_text[323:360] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[93:94] --> decoded_text[361:368] '原' --> ' [UNK] '", - "replace text[95:97] --> decoded_text[369:378] ',昨' --> ' , [UNK] '", - "replace text[98:100] --> decoded_text[379:392] '王先' --> ' [UNK] [UNK] '", - "insert text[101:101] --> decoded_text[393:394] '' --> ' '", - "replace text[102:103] --> decoded_text[395:402] '搭' --> ' [UNK] '", - "replace text[104:106] --> decoded_text[403:416] '租车' --> ' [UNK] [UNK] '", - "replace text[107:109] --> decoded_text[417:426] ',遇' --> ' , [UNK] '", - "replace text[110:113] --> decoded_text[427:438] '的的哥' --> ' 的 的 [UNK] '", - "replace text[114:115] --> decoded_text[439:446] '仅' --> ' [UNK] '", - "replace text[116:117] --> decoded_text[447:454] '拾' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[455:468] '而昧' --> ' [UNK] [UNK] '", - "replace text[121:123] --> decoded_text[469:478] ',还' --> ' , [UNK] '", - "replace text[124:125] --> decoded_text[479:486] '昧' --> ' [UNK] '", - "insert text[126:126] --> decoded_text[487:488] '' --> ' '", - "insert text[127:127] --> decoded_text[489:490] '' --> ' '", - "replace text[128:131] --> decoded_text[491:510] '直气壮' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 62, - "oov_ratio": 0.4696969696969697, - "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"里\", \"反\", \"派\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"虚\", \"但\", \"这\", \"却\", \"直\", \"气\", \"壮\", \"遇\", \"哥\", \"就\", \"样\", \"王\", \"先\", \"向\", \"记\", \"描\", \"述\", \"经\", \"过\", \"第\", \"句\", \"话\", \"便\", \"原\", \"昨\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ 斯 利 [UNK] [UNK] 2012 年 加 入 [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 理 一 [UNK] , [UNK] [UNK] [UNK] 公 司 在 [UNK] [UNK] [UNK] 国 际 市 场 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] 以 [UNK] 的 业 [UNK] 。 [UNK] [UNK] 斯 [UNK] 福 大 学 的 [UNK] 业 生 , [UNK] [UNK] [UNK] 用 [UNK] [UNK] 在 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] 门 [UNK] [UNK] 到 山 西 [UNK] [UNK] [UNK] 京 现 代 [UNK] [UNK] 4s [UNK] 得 [UNK] , [UNK] 内 [UNK] 动 [UNK] [UNK] 有 现 [UNK] [UNK] [UNK] , 现 [UNK] [UNK] [UNK] [UNK] 可 [UNK] [UNK] 最 高 6000 元 优 [UNK] [UNK] [UNK] , [UNK] 体 的 [UNK] [UNK] 和 [UNK] [UNK] 情 [UNK] [UNK] [UNK] 下 [UNK] , [UNK] 时 [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] 可 [UNK] 电 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '卍招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[43:50] '卍' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[51:52] '' --> ' '", + "insert text[14:14] --> decoded_text[56:57] '' --> ' '", + "insert text[26:26] --> decoded_text[69:70] '' --> ' '", + "insert text[29:29] --> decoded_text[73:74] '' --> ' '", + "replace text[30:32] --> decoded_text[75:88] '卡尔' --> ' [UNK] [UNK] '", + "insert text[33:33] --> decoded_text[89:90] '' --> ' '", + "insert text[34:34] --> decoded_text[91:92] '' --> ' '", + "replace text[35:37] --> decoded_text[93:106] '姆于' --> ' [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[110:111] '' --> ' '", + "insert text[42:42] --> decoded_text[112:113] '' --> ' '", + "insert text[43:43] --> decoded_text[114:115] '' --> ' '", + "replace text[44:48] --> decoded_text[116:141] '塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[142:143] '' --> ' '", + "replace text[50:54] --> decoded_text[144:169] '担任总经' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[55:55] --> decoded_text[170:171] '' --> ' '", + "replace text[56:57] --> decoded_text[172:179] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[180:199] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[200:201] '' --> ' '", + "insert text[63:63] --> decoded_text[202:203] '' --> ' '", + "replace text[64:67] --> decoded_text[204:223] '印度及' --> ' [UNK] [UNK] [UNK] '", + "insert text[68:68] --> decoded_text[224:225] '' --> ' '", + "insert text[69:69] --> decoded_text[226:227] '' --> ' '", + "insert text[70:70] --> decoded_text[228:229] '' --> ' '", + "insert text[71:71] --> decoded_text[230:231] '' --> ' '", + "replace text[72:75] --> decoded_text[232:251] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:78] --> decoded_text[252:265] '路虎' --> ' [UNK] [UNK] '", + "replace text[79:80] --> decoded_text[266:273] '外' --> ' [UNK] '", + "insert text[81:81] --> decoded_text[274:275] '' --> ' '", + "replace text[82:83] --> decoded_text[276:283] '务' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[284:297] '这位' --> ' [UNK] [UNK] '", + "replace text[87:88] --> decoded_text[298:305] '坦' --> ' [UNK] '", + "insert text[89:89] --> decoded_text[306:307] '' --> ' '", + "insert text[90:90] --> decoded_text[308:309] '' --> ' '", + "insert text[91:91] --> decoded_text[310:311] '' --> ' '", + "replace text[92:93] --> decoded_text[312:319] '毕' --> ' [UNK] '", + "insert text[94:94] --> decoded_text[320:321] '' --> ' '", + "insert text[95:95] --> decoded_text[322:323] '' --> ' '", + "replace text[96:99] --> decoded_text[324:343] '曾任通' --> ' [UNK] [UNK] [UNK] '", + "replace text[100:102] --> decoded_text[344:357] '汽车' --> ' [UNK] [UNK] '", + "insert text[103:103] --> decoded_text[358:359] '' --> ' '", + "insert text[104:104] --> decoded_text[360:361] '' --> ' '", + "insert text[105:105] --> decoded_text[362:363] '' --> ' '", + "replace text[106:107] --> decoded_text[364:371] '资' --> ' [UNK] '", + "insert text[108:108] --> decoded_text[372:373] '' --> ' '", + "insert text[109:109] --> decoded_text[374:375] '' --> ' '", + "insert text[110:110] --> decoded_text[376:377] '' --> ' '", + "replace text[111:112] --> decoded_text[378:385] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[386:387] '' --> ' '", + "replace text[114:117] --> decoded_text[388:407] '编辑专' --> ' [UNK] [UNK] [UNK] '", + "replace text[118:120] --> decoded_text[408:421] '联系' --> ' [UNK] [UNK] '", + "insert text[121:121] --> decoded_text[422:423] '' --> ' '", + "insert text[122:122] --> decoded_text[424:425] '' --> ' '", + "replace text[123:126] --> decoded_text[426:445] '传奇北' --> ' [UNK] [UNK] [UNK] '", + "insert text[127:127] --> decoded_text[446:447] '' --> ' '", + "insert text[128:128] --> decoded_text[448:449] '' --> ' '", + "replace text[129:131] --> decoded_text[450:463] '汽车' --> ' [UNK] [UNK] '", + "replace text[132:134] --> decoded_text[464:472] 'S店' --> 's [UNK] '", + "replace text[135:136] --> decoded_text[473:480] '知' --> ' [UNK] '", + "replace text[137:138] --> decoded_text[481:488] '店' --> ' [UNK] '", + "replace text[139:140] --> decoded_text[489:496] '朗' --> ' [UNK] '", + "replace text[141:143] --> decoded_text[497:510] '车型' --> ' [UNK] [UNK] '", + "insert text[144:144] --> decoded_text[511:512] '' --> ' '", + "replace text[145:148] --> decoded_text[513:532] '车供应' --> ' [UNK] [UNK] [UNK] '", + "insert text[149:149] --> decoded_text[533:534] '' --> ' '", + "replace text[150:154] --> decoded_text[535:560] '阶段购车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[155:157] --> decoded_text[561:574] '享受' --> ' [UNK] [UNK] '", + "insert text[158:158] --> decoded_text[575:576] '' --> ' '", + "insert text[159:159] --> decoded_text[577:578] '' --> ' '", + "insert text[163:163] --> decoded_text[582:583] '' --> ' '", + "insert text[164:164] --> decoded_text[584:585] '' --> ' '", + "replace text[165:168] --> decoded_text[586:605] '惠幅度' --> ' [UNK] [UNK] [UNK] '", + "replace text[169:170] --> decoded_text[606:613] '具' --> ' [UNK] '", + "insert text[171:171] --> decoded_text[614:615] '' --> ' '", + "replace text[172:174] --> decoded_text[616:629] '车型' --> ' [UNK] [UNK] '", + "replace text[175:177] --> decoded_text[630:643] '价格' --> ' [UNK] [UNK] '", + "replace text[178:181] --> decoded_text[644:663] '况请见' --> ' [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[664:671] '表' --> ' [UNK] '", + "replace text[184:185] --> decoded_text[672:679] '同' --> ' [UNK] '", + "replace text[186:189] --> decoded_text[680:699] '感兴趣' --> ' [UNK] [UNK] [UNK] '", + "replace text[190:193] --> decoded_text[700:719] '朋友还' --> ' [UNK] [UNK] [UNK] '", + "replace text[194:195] --> decoded_text[720:727] '致' --> ' [UNK] '", + "insert text[196:196] --> decoded_text[728:729] '' --> ' '", + "replace text[206:207] --> decoded_text[739:746] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[750:763] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 94, + "oov_ratio": 0.4392523364485981, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"卡\", \"尔\", \"姆\", \"于\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"职\", \"并\", \"负\", \"责\", \"印\", \"度\", \"及\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"外\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"联\", \"系\", \"传\", \"奇\", \"北\", \"S\", \"店\", \"知\", \"朗\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"享\", \"受\", \"惠\", \"幅\", \"具\", \"价\", \"格\", \"况\", \"请\", \"见\", \"表\", \"同\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 [UNK] [UNK] 美 国 大 [UNK] 《 [UNK] 福 [UNK] [UNK] 站 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] 得 [UNK] [UNK] 事 官 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] 能 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] 斯 [UNK] [UNK] 的 中 国 [UNK] [UNK] [UNK] 为 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 在 [UNK] [UNK] 斯 。 在 [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 了 [UNK] 心 动 [UNK] 的 [UNK] 小 时 , [UNK] [UNK] 在 [UNK] 机 [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:16] '类似' --> ' [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[17:18] '' --> ' '", + "insert text[6:6] --> decoded_text[19:20] '' --> ' '", + "replace text[7:8] --> decoded_text[21:28] '片' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '幸' --> ' [UNK] '", + "replace text[11:13] --> decoded_text[37:50] '终点' --> ' [UNK] [UNK] '", + "insert text[14:14] --> decoded_text[51:52] '' --> ' '", + "insert text[15:15] --> decoded_text[53:54] '' --> ' '", + "replace text[16:19] --> decoded_text[55:74] '案例令' --> ' [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[75:76] '' --> ' '", + "replace text[21:24] --> decoded_text[77:96] '驻圣彼' --> ' [UNK] [UNK] [UNK] '", + "replace text[25:27] --> decoded_text[97:110] '堡领' --> ' [UNK] [UNK] '", + "insert text[28:28] --> decoded_text[111:112] '' --> ' '", + "replace text[29:35] --> decoded_text[113:150] '胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[151:164] '由于' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[165:166] '' --> ' '", + "replace text[40:41] --> decoded_text[167:174] '未' --> ' [UNK] '", + "replace text[42:48] --> decoded_text[175:212] '仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[213:226] '效期' --> ' [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[227:228] '' --> ' '", + "replace text[53:57] --> decoded_text[229:254] '对赴俄罗' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[58:60] --> decoded_text[255:268] '旅游' --> ' [UNK] [UNK] '", + "insert text[61:61] --> decoded_text[269:270] '' --> ' '", + "insert text[62:62] --> decoded_text[271:272] '' --> ' '", + "replace text[63:66] --> decoded_text[273:292] '夫妇因' --> ' [UNK] [UNK] [UNK] '", + "replace text[67:75] --> decoded_text[293:342] '签证过期差点被困' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[76:78] --> decoded_text[343:356] '俄罗' --> ' [UNK] [UNK] '", + "insert text[79:79] --> decoded_text[357:358] '' --> ' '", + "insert text[80:80] --> decoded_text[359:360] '' --> ' '", + "replace text[81:83] --> decoded_text[361:374] '胡滨' --> ' [UNK] [UNK] '", + "replace text[84:86] --> decoded_text[375:388] '协助' --> ' [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[389:390] '' --> ' '", + "replace text[88:94] --> decoded_text[391:428] '这对夫妇经历' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[95:96] --> decoded_text[429:436] '惊' --> ' [UNK] '", + "insert text[97:97] --> decoded_text[437:438] '' --> ' '", + "replace text[98:99] --> decoded_text[439:446] '魄' --> ' [UNK] '", + "replace text[100:101] --> decoded_text[447:454] '3' --> ' [UNK] '", + "insert text[102:102] --> decoded_text[455:456] '' --> ' '", + "insert text[103:103] --> decoded_text[457:458] '' --> ' '", + "replace text[104:106] --> decoded_text[459:472] '终于' --> ' [UNK] [UNK] '", + "replace text[107:108] --> decoded_text[473:480] '飞' --> ' [UNK] '", + "replace text[109:111] --> decoded_text[481:494] '起飞' --> ' [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[495:502] '5' --> ' [UNK] '", + "replace text[114:115] --> decoded_text[503:510] '钟' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[511:518] '登' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[519:532] '返程' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[533:546] '航班' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 75, + "oov_ratio": 0.6048387096774194, + "oov_charset": "[\"类\", \"似\", \"片\", \"幸\", \"终\", \"点\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"堡\", \"领\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"过\", \"差\", \"被\", \"困\", \"协\", \"助\", \"这\", \"经\", \"历\", \"惊\", \"魄\", \"3\", \"飞\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] [UNK] [UNK] 在 [UNK] [UNK] 中 [UNK] [UNK] , 中 法 [UNK] [UNK] 开 [UNK] 了 中 法 [UNK] 个 [UNK] 大 国 家 [UNK] 好 [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 了 不 [UNK] 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 际 [UNK] [UNK] [UNK] [UNK] [UNK] 生 了 [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[7:10] --> decoded_text[37:56] '张德江' --> ' [UNK] [UNK] [UNK] '", + "replace text[11:13] --> decoded_text[57:70] '致辞' --> ' [UNK] [UNK] '", + "replace text[14:16] --> decoded_text[71:84] '表示' --> ' [UNK] [UNK] '", + "insert text[17:17] --> decoded_text[85:86] '' --> ' '", + "insert text[18:18] --> decoded_text[87:88] '' --> ' '", + "replace text[19:21] --> decoded_text[89:102] '建交' --> ' [UNK] [UNK] '", + "replace text[22:23] --> decoded_text[103:110] '启' --> ' [UNK] '", + "insert text[24:24] --> decoded_text[111:112] '' --> ' '", + "insert text[25:25] --> decoded_text[113:114] '' --> ' '", + "replace text[26:27] --> decoded_text[115:122] '两' --> ' [UNK] '", + "replace text[28:29] --> decoded_text[123:130] '伟' --> ' [UNK] '", + "insert text[30:30] --> decoded_text[131:132] '' --> ' '", + "insert text[31:31] --> decoded_text[133:134] '' --> ' '", + "replace text[32:33] --> decoded_text[135:142] '友' --> ' [UNK] '", + "replace text[34:36] --> decoded_text[143:156] '关系' --> ' [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[157:158] '' --> ' '", + "replace text[38:39] --> decoded_text[159:166] '纪' --> ' [UNK] '", + "insert text[40:40] --> decoded_text[167:168] '' --> ' '", + "replace text[41:42] --> decoded_text[169:176] '树' --> ' [UNK] '", + "insert text[43:43] --> decoded_text[177:178] '' --> ' '", + "insert text[44:44] --> decoded_text[179:180] '' --> ' '", + "replace text[45:46] --> decoded_text[181:188] '同' --> ' [UNK] '", + "insert text[47:47] --> decoded_text[189:190] '' --> ' '", + "replace text[48:50] --> decoded_text[191:204] '制度' --> ' [UNK] [UNK] '", + "insert text[51:51] --> decoded_text[205:206] '' --> ' '", + "insert text[52:52] --> decoded_text[207:208] '' --> ' '", + "insert text[53:53] --> decoded_text[209:210] '' --> ' '", + "replace text[54:56] --> decoded_text[211:224] '共处' --> ' [UNK] [UNK] '", + "insert text[57:57] --> decoded_text[225:226] '' --> ' '", + "replace text[58:60] --> decoded_text[227:240] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[241:248] '对' --> ' [UNK] '", + "insert text[63:63] --> decoded_text[249:250] '' --> ' '", + "replace text[64:69] --> decoded_text[251:282] '战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[283:284] '' --> ' '", + "replace text[71:72] --> decoded_text[285:292] '重' --> ' [UNK] '", + "replace text[73:76] --> decoded_text[293:312] '而深远' --> ' [UNK] [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[313:326] '影响' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 42, + "oov_ratio": 0.525, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"张\", \"德\", \"江\", \"致\", \"辞\", \"表\", \"示\", \"建\", \"交\", \"启\", \"两\", \"伟\", \"友\", \"关\", \"系\", \"纪\", \"树\", \"同\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] 斯 [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 马 来 西 亚 、 [UNK] [UNK] 、 [UNK] 国 、 [UNK] [UNK] 、 美 国 工 作 。 1999 年 , [UNK] 成 为 [UNK] 合 国 [UNK] [UNK] [UNK] [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[7:8] --> decoded_text[37:44] '科' --> ' [UNK] '", + "replace text[9:12] --> decoded_text[45:64] '格罗夫' --> ' [UNK] [UNK] [UNK] '", + "replace text[13:19] --> decoded_text[65:102] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:24] --> decoded_text[103:128] '曾被派往' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[129:130] '' --> ' '", + "insert text[26:26] --> decoded_text[131:132] '' --> ' '", + "insert text[27:27] --> decoded_text[133:134] '' --> ' '", + "insert text[28:28] --> decoded_text[135:136] '' --> ' '", + "replace text[29:31] --> decoded_text[137:150] '越南' --> ' [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[151:158] '英' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[159:160] '' --> ' '", + "replace text[35:37] --> decoded_text[161:174] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[175:176] '' --> ' '", + "insert text[39:39] --> decoded_text[177:178] '' --> ' '", + "insert text[40:40] --> decoded_text[179:180] '' --> ' '", + "insert text[41:41] --> decoded_text[181:182] '' --> ' '", + "insert text[42:42] --> decoded_text[183:184] '' --> ' '", + "insert text[43:43] --> decoded_text[185:186] '' --> ' '", + "insert text[47:47] --> decoded_text[190:191] '' --> ' '", + "insert text[48:48] --> decoded_text[192:193] '' --> ' '", + "replace text[49:50] --> decoded_text[194:201] '他' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[202:203] '' --> ' '", + "replace text[52:53] --> decoded_text[204:211] '联' --> ' [UNK] '", + "insert text[54:54] --> decoded_text[212:213] '' --> ' '", + "replace text[55:59] --> decoded_text[214:239] '驻东帝汶' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[60:61] --> decoded_text[240:247] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[248:255] '令' --> ' [UNK] '", + "replace text[64:71] --> decoded_text[256:299] '监督东帝汶向独' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[300:301] '' --> ' '", + "insert text[73:73] --> decoded_text[302:303] '' --> ' '", + "insert text[74:74] --> decoded_text[304:305] '' --> ' '", + "replace text[75:77] --> decoded_text[306:319] '过渡' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 42, + "oov_ratio": 0.5384615384615384, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"科\", \"格\", \"罗\", \"夫\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"越\", \"南\", \"英\", \"印\", \"度\", \"他\", \"联\", \"驻\", \"东\", \"帝\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , 在 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 美 国 [UNK] 乐 市 场 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 [UNK] [UNK] ( ringostarr ) [UNK] 发 [UNK] [UNK] 成 [UNK] [UNK] , [UNK] 得 [UNK] [UNK] [UNK] [UNK] 。 为 了 [UNK] [UNK] [UNK] 事 , 大 会 [UNK] 来 金 [UNK] [UNK] [UNK] [UNK] [UNK] 亚 • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] [UNK] [UNK] 二 人 出 场 , 保 [UNK] 在 [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 [UNK] 《 queenieeye 》 , [UNK] [UNK] [UNK] 到 [UNK] 者 [UNK] [UNK] [UNK] 作 《 photograph 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 日 的 美 好 情 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "replace text[6:7] --> decoded_text[10:17] '据' --> ' [UNK] '", + "replace text[8:9] --> decoded_text[18:25] '港' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[26:27] '' --> ' '", + "replace text[11:12] --> decoded_text[28:35] '报' --> ' [UNK] '", + "replace text[13:16] --> decoded_text[36:51] '消息,' --> ' [UNK] [UNK] , '", + "replace text[17:24] --> decoded_text[52:95] '庆祝披头士进军' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[96:97] '' --> ' '", + "replace text[26:27] --> decoded_text[98:105] '音' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[106:107] '' --> ' '", + "insert text[29:29] --> decoded_text[108:109] '' --> ' '", + "insert text[30:30] --> decoded_text[110:111] '' --> ' '", + "replace text[32:33] --> decoded_text[113:120] '周' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[121:122] '' --> ' '", + "replace text[35:37] --> decoded_text[123:136] '纪念' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[137:138] '' --> ' '", + "replace text[39:42] --> decoded_text[139:154] ',格莱' --> ' , [UNK] [UNK] '", + "replace text[43:45] --> decoded_text[155:168] '向两' --> ' [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[169:182] '仅存' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[183:190] '员' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[191:192] '' --> ' '", + "replace text[52:58] --> decoded_text[193:230] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[59:61] --> decoded_text[231:244] '史达' --> ' [UNK] [UNK] '", + "replace text[62:63] --> decoded_text[245:247] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[251:252] 'S' --> 's'", + "insert text[72:72] --> decoded_text[256:257] '' --> ' '", + "replace text[73:74] --> decoded_text[258:265] '颁' --> ' [UNK] '", + "replace text[75:77] --> decoded_text[266:279] '终身' --> ' [UNK] [UNK] '", + "replace text[78:82] --> decoded_text[280:301] '就奖,显' --> ' [UNK] [UNK] , [UNK] '", + "replace text[83:87] --> decoded_text[302:327] '别具意义' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[88:88] --> decoded_text[328:329] '' --> ' '", + "insert text[89:89] --> decoded_text[330:331] '' --> ' '", + "replace text[90:93] --> decoded_text[332:351] '隆重其' --> ' [UNK] [UNK] [UNK] '", + "replace text[94:95] --> decoded_text[352:355] ',' --> ' , '", + "insert text[96:96] --> decoded_text[356:357] '' --> ' '", + "replace text[97:98] --> decoded_text[358:365] '请' --> ' [UNK] '", + "insert text[99:99] --> decoded_text[366:367] '' --> ' '", + "replace text[100:105] --> decoded_text[368:399] '像影后茱莉' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[106:106] --> decoded_text[400:401] '' --> ' '", + "insert text[107:107] --> decoded_text[402:403] '' --> ' '", + "replace text[108:111] --> decoded_text[404:423] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[424:426] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[430:431] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[437:438] '' --> ' '", + "replace text[125:129] --> decoded_text[439:464] '负责介绍' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[130:130] --> decoded_text[465:466] '' --> ' '", + "insert text[131:131] --> decoded_text[467:468] '' --> ' '", + "insert text[132:132] --> decoded_text[469:470] '' --> ' '", + "replace text[133:134] --> decoded_text[471:474] ',' --> ' , '", + "replace text[135:136] --> decoded_text[475:482] '罗' --> ' [UNK] '", + "replace text[137:139] --> decoded_text[483:496] '拍档' --> ' [UNK] [UNK] '", + "replace text[140:142] --> decoded_text[497:510] '鼓声' --> ' [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[511:518] '应' --> ' [UNK] '", + "replace text[145:149] --> decoded_text[519:540] ',先献唱' --> ' , [UNK] [UNK] [UNK] '", + "replace text[150:151] --> decoded_text[541:548] '歌' --> ' [UNK] '", + "replace text[152:153] --> decoded_text[549:551] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[557:558] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[560:561] '' --> ' '", + "replace text[163:167] --> decoded_text[562:583] ',然后轮' --> ' , [UNK] [UNK] [UNK] '", + "replace text[168:169] --> decoded_text[584:591] '后' --> ' [UNK] '", + "replace text[170:173] --> decoded_text[592:611] '演绎旧' --> ' [UNK] [UNK] [UNK] '", + "insert text[174:174] --> decoded_text[612:613] '' --> ' '", + "replace text[175:176] --> decoded_text[614:616] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[625:626] '' --> ' '", + "replace text[186:194] --> decoded_text[627:672] ',带领歌迷重温昔' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[195:195] --> decoded_text[673:674] '' --> ' '", + "insert text[196:196] --> decoded_text[675:676] '' --> ' '", + "insert text[197:197] --> decoded_text[677:678] '' --> ' '", + "insert text[198:198] --> decoded_text[679:680] '' --> ' '", + "replace text[199:200] --> decoded_text[681:688] '怀' --> ' [UNK] '" + ], + "n_oov_chars": 89, + "oov_ratio": 0.4427860696517413, + "oov_charset": "[\"据\", \"港\", \"报\", \"消\", \"息\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"音\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"史\", \"达\", \"R\", \"S\", \"颁\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"别\", \"具\", \"意\", \"义\", \"隆\", \"重\", \"其\", \"请\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"介\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"歌\", \"Q\", \"E\", \"然\", \"轮\", \"演\", \"绎\", \"旧\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] 牌 [UNK] [UNK] [UNK] 有 [UNK] 到 [UNK] [UNK] 的 地 [UNK] , [UNK] 者 全 [UNK] 的 [UNK] [UNK] [UNK] 是 14 元 , [UNK] 司 机 到 [UNK] 21 元 , [UNK] [UNK] , 司 机 [UNK] [UNK] 者 7 元 , [UNK] [UNK] [UNK] 前 [UNK] [UNK] 的 1 元 , [UNK] 者 [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] 了 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '佛' --> '[UNK] '", + "replace text[2:5] --> decoded_text[7:26] '绳哪里' --> ' [UNK] [UNK] [UNK] '", + "replace text[6:7] --> decoded_text[27:34] '卖' --> ' [UNK] '", + "replace text[8:11] --> decoded_text[35:50] '达目的' --> ' [UNK] [UNK] 的 '", + "replace text[12:15] --> decoded_text[51:66] '后,记' --> ' [UNK] , [UNK] '", + "insert text[16:16] --> decoded_text[67:68] '' --> ' '", + "replace text[17:22] --> decoded_text[69:96] '程的总车费' --> ' [UNK] 的 [UNK] [UNK] [UNK] '", + "insert text[23:23] --> decoded_text[97:98] '' --> ' '", + "replace text[25:28] --> decoded_text[100:111] '元,但' --> ' 元 , [UNK] '", + "insert text[29:29] --> decoded_text[112:113] '' --> ' '", + "insert text[30:30] --> decoded_text[114:115] '' --> ' '", + "replace text[31:32] --> decoded_text[116:123] '账' --> ' [UNK] '", + "replace text[34:39] --> decoded_text[125:144] '元,因此,' --> ' 元 , [UNK] [UNK] , '", + "insert text[40:40] --> decoded_text[145:146] '' --> ' '", + "replace text[41:43] --> decoded_text[147:160] '给记' --> ' [UNK] [UNK] '", + "insert text[44:44] --> decoded_text[161:162] '' --> ' '", + "replace text[45:50] --> decoded_text[163:186] '元,除去之' --> ' 元 , [UNK] [UNK] [UNK] '", + "replace text[51:58] --> decoded_text[187:214] '支付的1元,记' --> ' [UNK] [UNK] 的 1 元 , [UNK] '", + "replace text[59:61] --> decoded_text[215:228] '净赚' --> ' [UNK] [UNK] '", + "replace text[62:68] --> decoded_text[229:258] '元,还免费乘' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", + "insert text[69:69] --> decoded_text[259:260] '' --> ' '", + "replace text[70:73] --> decoded_text[261:280] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:78] --> decoded_text[282:293] '元的车' --> ' 元 的 [UNK] '" + ], + "n_oov_chars": 35, + "oov_ratio": 0.4430379746835443, + "oov_charset": "[\"佛\", \"绳\", \"哪\", \"里\", \"卖\", \"达\", \"目\", \"后\", \"记\", \"程\", \"总\", \"车\", \"费\", \"但\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ 斯 利 [UNK] [UNK] 2012 年 加 入 [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 理 一 [UNK] , [UNK] [UNK] [UNK] 公 司 在 [UNK] [UNK] [UNK] 国 际 市 场 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] 以 [UNK] 的 业 [UNK] 。 [UNK] [UNK] 斯 [UNK] 福 大 学 的 [UNK] 业 生 , [UNK] [UNK] [UNK] 用 [UNK] [UNK] 在 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] 用 [UNK] [UNK] 公 司 的 [UNK] [UNK] [UNK] 以 [UNK] [UNK] 用 [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] [UNK] )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "insert text[3:3] --> decoded_text[13:14] '' --> ' '", + "insert text[4:4] --> decoded_text[15:16] '' --> ' '", + "replace text[5:7] --> decoded_text[17:30] '姆于' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[34:35] '' --> ' '", + "insert text[12:12] --> decoded_text[36:37] '' --> ' '", + "insert text[13:13] --> decoded_text[38:39] '' --> ' '", + "replace text[14:18] --> decoded_text[40:65] '塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[66:67] '' --> ' '", + "replace text[20:24] --> decoded_text[68:93] '担任总经' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[94:95] '' --> ' '", + "replace text[26:27] --> decoded_text[96:103] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[104:123] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[124:125] '' --> ' '", + "insert text[33:33] --> decoded_text[126:127] '' --> ' '", + "replace text[34:37] --> decoded_text[128:147] '印度及' --> ' [UNK] [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[148:149] '' --> ' '", + "insert text[39:39] --> decoded_text[150:151] '' --> ' '", + "insert text[40:40] --> decoded_text[152:153] '' --> ' '", + "insert text[41:41] --> decoded_text[154:155] '' --> ' '", + "replace text[42:45] --> decoded_text[156:175] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[176:189] '路虎' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[190:197] '外' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[198:199] '' --> ' '", + "replace text[52:53] --> decoded_text[200:207] '务' --> ' [UNK] '", + "replace text[54:56] --> decoded_text[208:221] '这位' --> ' [UNK] [UNK] '", + "replace text[57:58] --> decoded_text[222:229] '坦' --> ' [UNK] '", + "insert text[59:59] --> decoded_text[230:231] '' --> ' '", + "insert text[60:60] --> decoded_text[232:233] '' --> ' '", + "insert text[61:61] --> decoded_text[234:235] '' --> ' '", + "replace text[62:63] --> decoded_text[236:243] '毕' --> ' [UNK] '", + "insert text[64:64] --> decoded_text[244:245] '' --> ' '", + "insert text[65:65] --> decoded_text[246:247] '' --> ' '", + "replace text[66:69] --> decoded_text[248:267] '曾任通' --> ' [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[268:281] '汽车' --> ' [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[282:283] '' --> ' '", + "insert text[74:74] --> decoded_text[284:285] '' --> ' '", + "insert text[75:75] --> decoded_text[286:287] '' --> ' '", + "replace text[76:77] --> decoded_text[288:295] '资' --> ' [UNK] '", + "insert text[78:78] --> decoded_text[296:297] '' --> ' '", + "insert text[79:79] --> decoded_text[298:299] '' --> ' '", + "replace text[80:83] --> decoded_text[300:319] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[320:321] '' --> ' '", + "replace text[85:87] --> decoded_text[322:335] '汽通' --> ' [UNK] [UNK] '", + "replace text[88:90] --> decoded_text[336:349] '五菱' --> ' [UNK] [UNK] '", + "insert text[91:91] --> decoded_text[350:351] '' --> ' '", + "insert text[92:92] --> decoded_text[352:353] '' --> ' '", + "replace text[93:96] --> decoded_text[354:373] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "replace text[97:99] --> decoded_text[374:387] '及通' --> ' [UNK] [UNK] '", + "replace text[100:104] --> decoded_text[388:413] '汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[414:415] '' --> ' '", + "insert text[106:106] --> decoded_text[416:417] '' --> ' '", + "replace text[107:109] --> decoded_text[418:431] '总裁' --> ' [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[432:433] '' --> ' '", + "insert text[111:111] --> decoded_text[434:435] '' --> ' '", + "replace text[112:114] --> decoded_text[436:449] '赵春' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 56, + "oov_ratio": 0.48695652173913045, + "oov_charset": "[\"卡\", \"尔\", \"姆\", \"于\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"职\", \"并\", \"负\", \"责\", \"印\", \"度\", \"及\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"外\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] 不 可 能 [UNK] 部 作 品 都 是 [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 时 [UNK] [UNK] 不 [UNK] 情 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 是 人 , 不 是 神 , 人 [UNK] 有 自 [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 我 [UNK] 开 [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] 了 [UNK] [UNK] [UNK] 时 [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] 要 [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] 是 不 是 [UNK] ” [UNK] [UNK] 是 [UNK] 人 。 [UNK] [UNK] 为 [UNK] [UNK] [UNK] 了 [UNK] [UNK] , [UNK] [UNK] 不 一 定 有 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '每' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[33:34] '' --> ' '", + "insert text[10:10] --> decoded_text[35:36] '' --> ' '", + "insert text[11:11] --> decoded_text[37:38] '' --> ' '", + "insert text[12:12] --> decoded_text[39:40] '' --> ' '", + "replace text[13:16] --> decoded_text[41:60] '你喜欢' --> ' [UNK] [UNK] [UNK] '", + "replace text[17:18] --> decoded_text[61:68] '东' --> ' [UNK] '", + "replace text[19:23] --> decoded_text[69:90] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "insert text[24:24] --> decoded_text[91:92] '' --> ' '", + "replace text[25:27] --> decoded_text[93:106] '控制' --> ' [UNK] [UNK] '", + "replace text[28:29] --> decoded_text[107:114] '住' --> ' [UNK] '", + "replace text[30:37] --> decoded_text[115:154] '绪,就让他骂吧' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:40] --> decoded_text[155:168] '他也' --> ' [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[169:170] '' --> ' '", + "replace text[42:43] --> decoded_text[171:174] ',' --> ' , '", + "insert text[44:44] --> decoded_text[175:176] '' --> ' '", + "insert text[45:45] --> decoded_text[177:178] '' --> ' '", + "replace text[46:47] --> decoded_text[179:182] ',' --> ' , '", + "replace text[48:49] --> decoded_text[183:190] '就' --> ' [UNK] '", + "insert text[50:50] --> decoded_text[191:192] '' --> ' '", + "replace text[51:52] --> decoded_text[193:200] '己' --> ' [UNK] '", + "replace text[53:55] --> decoded_text[201:214] '脾气' --> ' [UNK] [UNK] '", + "replace text[56:65] --> decoded_text[215:266] '他这次执导春晚,对' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", + "replace text[66:67] --> decoded_text[267:274] '也' --> ' [UNK] '", + "replace text[68:69] --> decoded_text[275:282] '骂' --> ' [UNK] '", + "insert text[70:70] --> decoded_text[283:284] '' --> ' '", + "replace text[71:74] --> decoded_text[285:300] '老毕,' --> ' [UNK] [UNK] , '", + "replace text[75:78] --> decoded_text[301:320] '跟你说' --> ' [UNK] [UNK] [UNK] '", + "replace text[79:82] --> decoded_text[321:340] '这么长' --> ' [UNK] [UNK] [UNK] '", + "replace text[83:88] --> decoded_text[341:368] '间,让你走' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:94] --> decoded_text[369:396] '号位,你非' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "replace text[95:96] --> decoded_text[397:404] '走' --> ' [UNK] '", + "replace text[97:103] --> decoded_text[405:438] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[104:107] --> decoded_text[439:458] '较死劲' --> ' [UNK] [UNK] [UNK] '", + "insert text[108:108] --> decoded_text[459:460] '' --> ' '", + "insert text[109:109] --> decoded_text[461:462] '' --> ' '", + "replace text[110:111] --> decoded_text[463:470] '?' --> ' [UNK] '", + "replace text[112:114] --> decoded_text[471:484] '这也' --> ' [UNK] [UNK] '", + "replace text[115:116] --> decoded_text[485:492] '骂' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[493:494] '' --> ' '", + "replace text[118:120] --> decoded_text[495:508] '但因' --> ' [UNK] [UNK] '", + "replace text[121:124] --> decoded_text[509:528] '你非常' --> ' [UNK] [UNK] [UNK] '", + "replace text[125:130] --> decoded_text[529:556] '解他,他也' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "insert text[131:131] --> decoded_text[557:558] '' --> ' '", + "insert text[132:132] --> decoded_text[559:560] '' --> ' '", + "insert text[133:133] --> decoded_text[561:562] '' --> ' '", + "replace text[134:136] --> decoded_text[563:576] '恶意' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 76, + "oov_ratio": 0.5547445255474452, + "oov_charset": "[\"腕\", \"导\", \"演\", \"每\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"控\", \"制\", \"住\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"也\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"老\", \"毕\", \"跟\", \"说\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"常\", \"解\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 不 [UNK] [UNK] 得 多 , [UNK] [UNK] [UNK] [UNK] 得 多 。 有 [UNK] 体 [UNK] 道 , [UNK] [UNK] [UNK] [UNK] 斯 的 年 [UNK] 高 [UNK] 360 万 元 人 [UNK] [UNK] , [UNK] [UNK] [UNK] 年 的 [UNK] [UNK] 是 600 多 万 元 。 用 一 个 [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 万 元 [UNK] 出 [UNK] 了 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[7:7] --> decoded_text[37:38] '' --> ' '", + "replace text[8:10] --> decoded_text[39:52] '过挣' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[53:54] '' --> ' '", + "replace text[12:17] --> decoded_text[55:82] ',娜姐也花' --> ' , [UNK] [UNK] [UNK] [UNK] '", + "insert text[18:18] --> decoded_text[83:84] '' --> ' '", + "insert text[19:19] --> decoded_text[85:86] '' --> ' '", + "insert text[20:20] --> decoded_text[87:88] '' --> ' '", + "replace text[21:22] --> decoded_text[89:96] '媒' --> ' [UNK] '", + "replace text[23:24] --> decoded_text[97:104] '报' --> ' [UNK] '", + "replace text[25:30] --> decoded_text[105:132] ',教练卡洛' --> ' , [UNK] [UNK] [UNK] [UNK] '", + "insert text[31:31] --> decoded_text[133:134] '' --> ' '", + "insert text[32:32] --> decoded_text[135:136] '' --> ' '", + "replace text[33:34] --> decoded_text[137:144] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[145:152] '达' --> ' [UNK] '", + "insert text[39:39] --> decoded_text[155:156] '' --> ' '", + "insert text[40:40] --> decoded_text[157:158] '' --> ' '", + "insert text[41:41] --> decoded_text[159:160] '' --> ' '", + "replace text[42:48] --> decoded_text[161:194] '民币,李娜每' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[195:196] '' --> ' '", + "replace text[50:52] --> decoded_text[197:210] '花费' --> ' [UNK] [UNK] '", + "insert text[53:53] --> decoded_text[211:212] '' --> ' '", + "insert text[56:56] --> decoded_text[215:216] '' --> ' '", + "insert text[57:57] --> decoded_text[217:218] '' --> ' '", + "insert text[58:58] --> decoded_text[219:220] '' --> ' '", + "insert text[59:59] --> decoded_text[221:222] '' --> ' '", + "insert text[60:60] --> decoded_text[223:224] '' --> ' '", + "insert text[61:61] --> decoded_text[225:226] '' --> ' '", + "insert text[62:62] --> decoded_text[227:228] '' --> ' '", + "replace text[63:65] --> decoded_text[229:242] '形象' --> ' [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[243:244] '' --> ' '", + "replace text[67:72] --> decoded_text[245:272] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[273:274] '' --> ' '", + "replace text[74:79] --> decoded_text[275:302] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[303:304] '' --> ' '", + "insert text[81:81] --> decoded_text[305:306] '' --> ' '", + "replace text[82:83] --> decoded_text[307:314] '就' --> ' [UNK] '", + "replace text[84:85] --> decoded_text[315:322] '去' --> ' [UNK] '", + "insert text[86:86] --> decoded_text[323:324] '' --> ' '" + ], + "n_oov_chars": 39, + "oov_ratio": 0.4482758620689655, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"过\", \"挣\", \"娜\", \"姐\", \"也\", \"花\", \"媒\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"薪\", \"达\", \"民\", \"币\", \"李\", \"每\", \"费\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 [UNK] 有 一 个 [UNK] [UNK] 人 物 ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 是 心 [UNK] 的 , [UNK] 是 [UNK] 个 人 物 [UNK] [UNK] 得 心 安 理 得 , 理 [UNK] [UNK] [UNK] , 我 [UNK] 到 的 [UNK] 个 的 [UNK] [UNK] 是 [UNK] [UNK] 。 ” [UNK] [UNK] 生 [UNK] [UNK] 者 [UNK] [UNK] [UNK] [UNK] 时 [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 来 , [UNK] 日 [UNK] [UNK] 生 在 [UNK] 出 [UNK] [UNK] 时 , [UNK] 到 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” 得 理 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", + "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", + "replace text[11:12] --> decoded_text[37:44] '里' --> ' [UNK] '", + "insert text[13:13] --> decoded_text[45:46] '' --> ' '", + "insert text[14:14] --> decoded_text[47:48] '' --> ' '", + "replace text[15:17] --> decoded_text[49:62] '反派' --> ' [UNK] [UNK] '", + "insert text[18:18] --> decoded_text[63:64] '' --> ' '", + "insert text[19:19] --> decoded_text[65:66] '' --> ' '", + "replace text[20:24] --> decoded_text[67:92] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:26] --> decoded_text[93:96] ',' --> ' , '", + "replace text[27:30] --> decoded_text[97:112] '般的坏' --> ' [UNK] 的 [UNK] '", + "replace text[31:33] --> decoded_text[113:126] '做坏' --> ' [UNK] [UNK] '", + "insert text[34:34] --> decoded_text[127:128] '' --> ' '", + "insert text[35:35] --> decoded_text[129:130] '' --> ' '", + "insert text[36:36] --> decoded_text[131:132] '' --> ' '", + "replace text[37:41] --> decoded_text[133:150] '虚的,但' --> ' [UNK] 的 , [UNK] '", + "replace text[42:43] --> decoded_text[151:158] '这' --> ' [UNK] '", + "insert text[44:44] --> decoded_text[159:160] '' --> ' '", + "insert text[45:45] --> decoded_text[161:162] '' --> ' '", + "replace text[46:48] --> decoded_text[163:176] '却做' --> ' [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[177:178] '' --> ' '", + "insert text[50:50] --> decoded_text[179:180] '' --> ' '", + "insert text[51:51] --> decoded_text[181:182] '' --> ' '", + "insert text[52:52] --> decoded_text[183:184] '' --> ' '", + "replace text[53:54] --> decoded_text[185:188] ',' --> ' , '", + "replace text[55:59] --> decoded_text[189:210] '直气壮,' --> ' [UNK] [UNK] [UNK] , '", + "replace text[60:61] --> decoded_text[211:218] '遇' --> ' [UNK] '", + "replace text[62:64] --> decoded_text[219:228] '的这' --> ' 的 [UNK] '", + "replace text[65:68] --> decoded_text[229:244] '的哥就' --> ' 的 [UNK] [UNK] '", + "replace text[69:71] --> decoded_text[245:258] '这样' --> ' [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[259:260] '' --> ' '", + "replace text[73:75] --> decoded_text[261:274] '王先' --> ' [UNK] [UNK] '", + "replace text[76:78] --> decoded_text[275:288] '向记' --> ' [UNK] [UNK] '", + "replace text[79:83] --> decoded_text[289:314] '描述经过' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[84:85] --> decoded_text[315:322] '第' --> ' [UNK] '", + "replace text[86:92] --> decoded_text[323:360] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[93:94] --> decoded_text[361:368] '原' --> ' [UNK] '", + "replace text[95:97] --> decoded_text[369:378] ',昨' --> ' , [UNK] '", + "replace text[98:100] --> decoded_text[379:392] '王先' --> ' [UNK] [UNK] '", + "insert text[101:101] --> decoded_text[393:394] '' --> ' '", + "replace text[102:103] --> decoded_text[395:402] '搭' --> ' [UNK] '", + "replace text[104:106] --> decoded_text[403:416] '租车' --> ' [UNK] [UNK] '", + "replace text[107:109] --> decoded_text[417:426] ',遇' --> ' , [UNK] '", + "replace text[110:113] --> decoded_text[427:438] '的的哥' --> ' 的 的 [UNK] '", + "replace text[114:115] --> decoded_text[439:446] '仅' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[447:454] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[455:468] '而昧' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[469:478] ',还' --> ' , [UNK] '", + "replace text[124:125] --> decoded_text[479:486] '昧' --> ' [UNK] '", + "insert text[126:126] --> decoded_text[487:488] '' --> ' '", + "insert text[127:127] --> decoded_text[489:490] '' --> ' '", + "replace text[128:131] --> decoded_text[491:510] '直气壮' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 62, + "oov_ratio": 0.4696969696969697, + "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"里\", \"反\", \"派\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"虚\", \"但\", \"这\", \"却\", \"直\", \"气\", \"壮\", \"遇\", \"哥\", \"就\", \"样\", \"王\", \"先\", \"向\", \"记\", \"描\", \"述\", \"经\", \"过\", \"第\", \"句\", \"话\", \"便\", \"原\", \"昨\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json index c18309fb2f9853bbde6f863bf47e7a3f4e2e61d2..edf962170b1987eb3ef2cfcbd9e265a3459ef529 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "سيارة ام جي‬‎ C 1969 كلاسيكية في دبي", - "decoded_text": "سيارة ام جي‬ C 1969 كلاسيكية في دبي", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] '\\u200e' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.027777777777777776, - "oov_charset": "[\"‎\"]" - }, - { - "text": "طالب شباب محافظة أسيوط بعودة أرض الملاعب الي الغرض الذي أنشئت من أجله بعد أن قام المحافظ الأسبق نبيل العزبي بتحويلها الي معرض دائم لبيع المنتجات والسلع الغذائية‏.", - "decoded_text": "طالب شباب محافظة أسيوط بعودة أرض الملاعب الي الغرض الذي أنشئت من أجله بعد أن قام المحافظ الأسبق نبيل العزبي بتحويلها الي معرض دائم لبيع المنتجات والسلع الغذائية .", - "diff": [ - "replace text[160:161] --> decoded_text[160:161] '\\u200f' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006172839506172839, - "oov_charset": "[\"‏\"]" - }, - { - "text": "مما حرم شباب المحافظة من ممارسة الأنشطة الرياضية‏,‏ خاصة وأن مدينة أسيوط ليس بها مراكز شباب أو ملاعب تستوعب تلك الأعداد الغفيرة واصفين قرار المحافظ السابق بأنه عشوائي‏.‏", - "decoded_text": "مما حرم شباب المحافظة من ممارسة الأنشطة الرياضية , خاصة وأن مدينة أسيوط ليس بها مراكز شباب أو ملاعب تستوعب تلك الأعداد الغفيرة واصفين قرار المحافظ السابق بأنه عشوائي . ", - "diff": [ - "replace text[48:49] --> decoded_text[48:49] '\\u200f' --> ' '", - "replace text[50:51] --> decoded_text[50:51] '\\u200f' --> ' '", - "replace text[166:167] --> decoded_text[166:167] '\\u200f' --> ' '", - "replace text[168:169] --> decoded_text[168:169] '\\u200f' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.023668639053254437, - "oov_charset": "[\"‏\"]" - }, - { - "text": "يقول الدكتور جمال محمد علي عميد كلية التربية الرياضية بأسيوط ونقيب الرياضيين‏,‏", - "decoded_text": "يقول الدكتور جمال محمد علي عميد كلية التربية الرياضية بأسيوط ونقيب الرياضيين , ", - "diff": [ - "replace text[76:77] --> decoded_text[76:77] '\\u200f' --> ' '", - "replace text[78:79] --> decoded_text[78:79] '\\u200f' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02531645569620253, - "oov_charset": "[\"‏\"]" - }, - { - "text": "ورصد البيان رقم 26 'سعت: 1702' أنه 'أثناء تقدم إحدي وحداتنا البرية في القطاع الجنوبي من الجبهة تقابلت مع قول مدرع للعدو فاشتبكت معه علي الفور في معركة تصادمية عنيفة ودمرت عددًا كبيرًا من دباباته وعرباته المدرعة ومدفعياته وفر بعض أفراد العدو تاركين وراءهم أسلحتهم سليمة وتمكنت قواتنا من الاستيلاء عليها: 3 دبابة سنتوريان، 4 مدافع 105 مم، 6 مدافع ½ بوصة، 4 هاون 81 مم، عدد كبير من البنادق والرشاشات، وجميعها صالحة للاستخدام - كما قامت وحداتنا من قوات الدفاع الجوي بالاشتباك مع طائرات العدو التي حاولت الإغارة علي قواتنا وأسقطت له أربع طائرات وأصابت طائرتين وبذا تكون خسائر العدو في الطائرات خلال النصف الأول من هذا اليوم تدمير 10 طائرات وإصابة طائرتين.", - "decoded_text": "ورصد البيان رقم 26 'سعت: 1702' أنه 'أثناء تقدم إحدي وحداتنا البرية في القطاع الجنوبي من الجبهة تقابلت مع قول مدرع للعدو فاشتبكت معه علي الفور في معركة تصادمية عنيفة ودمرت عددًا كبيرًا من دباباته وعرباته المدرعة ومدفعياته وفر بعض أفراد العدو تاركين وراءهم أسلحتهم سليمة وتمكنت قواتنا من الاستيلاء عليها: 3 دبابة سنتوريان، 4 مدافع 105 مم، 6 مدافع 1⁄2 بوصة، 4 هاون 81 مم، عدد كبير من البنادق والرشاشات، وجميعها صالحة للاستخدام - كما قامت وحداتنا من قوات الدفاع الجوي بالاشتباك مع طائرات العدو التي حاولت الإغارة علي قواتنا وأسقطت له أربع طائرات وأصابت طائرتين وبذا تكون خسائر العدو في الطائرات خلال النصف الأول من هذا اليوم تدمير 10 طائرات وإصابة طائرتين.", - "diff": [ - "replace text[345:346] --> decoded_text[345:348] '½' --> '1⁄2'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0015384615384615385, - "oov_charset": "[\"½\"]" - }, - { - "text": " كيف يمكن تشغيل مكيف واحد فقط من مكيفين سامسونج في نفس الغرفة بدون إطفاء نقطة الكهرباء ؟ _ إسألنا", - "decoded_text": " كيف يمكن تشغيل مكيف واحد فقط من مكيفين سامسونج في نفس الغرفة بدون إطفاء نقطة الكهرباء ؟ _ إسألنا", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '\\ufeff' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01020408163265306, - "oov_charset": "[\"\"]" - }, - { - "text": "يحدث تمزق الغضاريف الهلالية المفاجئ أثناء ممارسة الرياضة نتيجة دفع, قطع طريق كرة, ضربة على الركبة … الخ و قد تتمزق الغضاريف الهلالية نتيجة الاصابة بالتهاب المفاصل أو الشيخوخة أيضاً.", - "decoded_text": "يحدث تمزق الغضاريف الهلالية المفاجئ أثناء ممارسة الرياضة نتيجة دفع, قطع طريق كرة, ضربة على الركبة ... الخ و قد تتمزق الغضاريف الهلالية نتيجة الاصابة بالتهاب المفاصل أو الشيخوخة أيضاً.", - "diff": [ - "replace text[98:99] --> decoded_text[98:101] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0055248618784530384, - "oov_charset": "[\"…\"]" - }, - { - "text": "مثبــت: تاكسي تحت الطلب 2 ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", - "decoded_text": "مثبــت: تاكسي تحت الطلب 2 ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", - "diff": [ - "replace text[26:27] --> decoded_text[26:27] '\\u200f' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"‏\"]" - }, - { - "text": "ورط اللي بعدك بكلمة .. ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", - "decoded_text": "ورط اللي بعدك بكلمة .. ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", - "diff": [ - "replace text[23:24] --> decoded_text[23:24] '\\u200f' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01694915254237288, - "oov_charset": "[\"‏\"]" - }, - { - "text": "غيّر حرف واطلع بكلمة .. ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", - "decoded_text": "غيّر حرف واطلع بكلمة .. ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", - "diff": [ - "replace text[24:25] --> decoded_text[24:25] '\\u200f' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"‏\"]" - } +[ + { + "text": "سيارة ام جي‬‎ C 1969 كلاسيكية في دبي", + "decoded_text": "سيارة ام جي‬ C 1969 كلاسيكية في دبي", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] '\\u200e' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.027777777777777776, + "oov_charset": "[\"‎\"]" + }, + { + "text": "طالب شباب محافظة أسيوط بعودة أرض الملاعب الي الغرض الذي أنشئت من أجله بعد أن قام المحافظ الأسبق نبيل العزبي بتحويلها الي معرض دائم لبيع المنتجات والسلع الغذائية‏.", + "decoded_text": "طالب شباب محافظة أسيوط بعودة أرض الملاعب الي الغرض الذي أنشئت من أجله بعد أن قام المحافظ الأسبق نبيل العزبي بتحويلها الي معرض دائم لبيع المنتجات والسلع الغذائية .", + "diff": [ + "replace text[160:161] --> decoded_text[160:161] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006172839506172839, + "oov_charset": "[\"‏\"]" + }, + { + "text": "مما حرم شباب المحافظة من ممارسة الأنشطة الرياضية‏,‏ خاصة وأن مدينة أسيوط ليس بها مراكز شباب أو ملاعب تستوعب تلك الأعداد الغفيرة واصفين قرار المحافظ السابق بأنه عشوائي‏.‏", + "decoded_text": "مما حرم شباب المحافظة من ممارسة الأنشطة الرياضية , خاصة وأن مدينة أسيوط ليس بها مراكز شباب أو ملاعب تستوعب تلك الأعداد الغفيرة واصفين قرار المحافظ السابق بأنه عشوائي . ", + "diff": [ + "replace text[48:49] --> decoded_text[48:49] '\\u200f' --> ' '", + "replace text[50:51] --> decoded_text[50:51] '\\u200f' --> ' '", + "replace text[166:167] --> decoded_text[166:167] '\\u200f' --> ' '", + "replace text[168:169] --> decoded_text[168:169] '\\u200f' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.023668639053254437, + "oov_charset": "[\"‏\"]" + }, + { + "text": "يقول الدكتور جمال محمد علي عميد كلية التربية الرياضية بأسيوط ونقيب الرياضيين‏,‏", + "decoded_text": "يقول الدكتور جمال محمد علي عميد كلية التربية الرياضية بأسيوط ونقيب الرياضيين , ", + "diff": [ + "replace text[76:77] --> decoded_text[76:77] '\\u200f' --> ' '", + "replace text[78:79] --> decoded_text[78:79] '\\u200f' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02531645569620253, + "oov_charset": "[\"‏\"]" + }, + { + "text": "ورصد البيان رقم 26 'سعت: 1702' أنه 'أثناء تقدم إحدي وحداتنا البرية في القطاع الجنوبي من الجبهة تقابلت مع قول مدرع للعدو فاشتبكت معه علي الفور في معركة تصادمية عنيفة ودمرت عددًا كبيرًا من دباباته وعرباته المدرعة ومدفعياته وفر بعض أفراد العدو تاركين وراءهم أسلحتهم سليمة وتمكنت قواتنا من الاستيلاء عليها: 3 دبابة سنتوريان، 4 مدافع 105 مم، 6 مدافع ½ بوصة، 4 هاون 81 مم، عدد كبير من البنادق والرشاشات، وجميعها صالحة للاستخدام - كما قامت وحداتنا من قوات الدفاع الجوي بالاشتباك مع طائرات العدو التي حاولت الإغارة علي قواتنا وأسقطت له أربع طائرات وأصابت طائرتين وبذا تكون خسائر العدو في الطائرات خلال النصف الأول من هذا اليوم تدمير 10 طائرات وإصابة طائرتين.", + "decoded_text": "ورصد البيان رقم 26 'سعت: 1702' أنه 'أثناء تقدم إحدي وحداتنا البرية في القطاع الجنوبي من الجبهة تقابلت مع قول مدرع للعدو فاشتبكت معه علي الفور في معركة تصادمية عنيفة ودمرت عددًا كبيرًا من دباباته وعرباته المدرعة ومدفعياته وفر بعض أفراد العدو تاركين وراءهم أسلحتهم سليمة وتمكنت قواتنا من الاستيلاء عليها: 3 دبابة سنتوريان، 4 مدافع 105 مم، 6 مدافع 1⁄2 بوصة، 4 هاون 81 مم، عدد كبير من البنادق والرشاشات، وجميعها صالحة للاستخدام - كما قامت وحداتنا من قوات الدفاع الجوي بالاشتباك مع طائرات العدو التي حاولت الإغارة علي قواتنا وأسقطت له أربع طائرات وأصابت طائرتين وبذا تكون خسائر العدو في الطائرات خلال النصف الأول من هذا اليوم تدمير 10 طائرات وإصابة طائرتين.", + "diff": [ + "replace text[345:346] --> decoded_text[345:348] '½' --> '1⁄2'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0015384615384615385, + "oov_charset": "[\"½\"]" + }, + { + "text": " كيف يمكن تشغيل مكيف واحد فقط من مكيفين سامسونج في نفس الغرفة بدون إطفاء نقطة الكهرباء ؟ _ إسألنا", + "decoded_text": " كيف يمكن تشغيل مكيف واحد فقط من مكيفين سامسونج في نفس الغرفة بدون إطفاء نقطة الكهرباء ؟ _ إسألنا", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\ufeff' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01020408163265306, + "oov_charset": "[\"\"]" + }, + { + "text": "يحدث تمزق الغضاريف الهلالية المفاجئ أثناء ممارسة الرياضة نتيجة دفع, قطع طريق كرة, ضربة على الركبة … الخ و قد تتمزق الغضاريف الهلالية نتيجة الاصابة بالتهاب المفاصل أو الشيخوخة أيضاً.", + "decoded_text": "يحدث تمزق الغضاريف الهلالية المفاجئ أثناء ممارسة الرياضة نتيجة دفع, قطع طريق كرة, ضربة على الركبة ... الخ و قد تتمزق الغضاريف الهلالية نتيجة الاصابة بالتهاب المفاصل أو الشيخوخة أيضاً.", + "diff": [ + "replace text[98:99] --> decoded_text[98:101] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0055248618784530384, + "oov_charset": "[\"…\"]" + }, + { + "text": "مثبــت: تاكسي تحت الطلب 2 ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "decoded_text": "مثبــت: تاكسي تحت الطلب 2 ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"‏\"]" + }, + { + "text": "ورط اللي بعدك بكلمة .. ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "decoded_text": "ورط اللي بعدك بكلمة .. ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "diff": [ + "replace text[23:24] --> decoded_text[23:24] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01694915254237288, + "oov_charset": "[\"‏\"]" + }, + { + "text": "غيّر حرف واطلع بكلمة .. ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "decoded_text": "غيّر حرف واطلع بكلمة .. ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"‏\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json index 3d58d073aa527d284c4f0d8e19925cd6cc825a1e..fba10a2ff6d2d6f86b554e3b932efd9219bdfcfb 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", - "diff": [ - "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", - "diff": [ - "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", - "diff": [ - "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", - "diff": [ - "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.00392156862745098, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", - "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", - "diff": [ - "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007194244604316547, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", - "diff": [ - "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005847953216374269, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Und das übrige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rüstete wider dir Kinder Ammon,", - "decoded_text": "Und das Ã1⁄4brige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rÃ1⁄4stete wider dir Kinder Ammon,", - "diff": [ - "replace text[9:10] --> decoded_text[9:12] '¼' --> '1⁄4'", - "replace text[81:82] --> decoded_text[83:86] '¼' --> '1⁄4'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.018018018018018018, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und führte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", - "decoded_text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und fÃ1⁄4hrte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006060606060606061, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog über den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", - "decoded_text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog Ã1⁄4ber den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", - "diff": [ - "replace text[73:74] --> decoded_text[73:76] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005917159763313609, - "oov_charset": "[\"¼\"]" - }, - { - "text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fürchteten sich, den Kindern Ammon mehr zu helfen.", - "decoded_text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fÃ1⁄4rchteten sich, den Kindern Ammon mehr zu helfen.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '¼' --> '1⁄4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004629629629629629, - "oov_charset": "[\"¼\"]" - } +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und das übrige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rüstete wider dir Kinder Ammon,", + "decoded_text": "Und das Ã1⁄4brige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rÃ1⁄4stete wider dir Kinder Ammon,", + "diff": [ + "replace text[9:10] --> decoded_text[9:12] '¼' --> '1⁄4'", + "replace text[81:82] --> decoded_text[83:86] '¼' --> '1⁄4'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018018018018018018, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und führte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", + "decoded_text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und fÃ1⁄4hrte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006060606060606061, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog über den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", + "decoded_text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog Ã1⁄4ber den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", + "diff": [ + "replace text[73:74] --> decoded_text[73:76] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005917159763313609, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fürchteten sich, den Kindern Ammon mehr zu helfen.", + "decoded_text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fÃ1⁄4rchteten sich, den Kindern Ammon mehr zu helfen.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"¼\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json index 734a27be6b7b5b7e223e1b3a4c38f83add33ae21..caeb015b44b1e5ab27606c8673a82b62e6cc7ff6 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": " EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": " Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", - "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", - "diff": [ - "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"…\"]" - }, - { - "text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies… with sprinkles, of course.", - "decoded_text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies... with sprinkles, of course.", - "diff": [ - "replace text[345:346] --> decoded_text[345:348] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002680965147453083, - "oov_charset": "[\"…\"]" - }, - { - "text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them… love the library!", - "decoded_text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them... love the library!", - "diff": [ - "replace text[96:97] --> decoded_text[96:99] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008695652173913044, - "oov_charset": "[\"…\"]" - }, - { - "text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it…every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", - "decoded_text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it...every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", - "diff": [ - "replace text[228:229] --> decoded_text[228:231] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.003115264797507788, - "oov_charset": "[\"…\"]" - }, - { - "text": "So, with your theme, we just use the default search widget? Or…do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", - "decoded_text": "So, with your theme, we just use the default search widget? Or...do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", - "diff": [ - "replace text[62:63] --> decoded_text[62:65] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004878048780487805, - "oov_charset": "[\"…\"]" - }, - { - "text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example … And i dont understand why", - "decoded_text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example ... And i dont understand why", - "diff": [ - "replace text[113:114] --> decoded_text[113:116] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007142857142857143, - "oov_charset": "[\"…\"]" - }, - { - "text": "“It Only Happens Once…Yesterday and Tomorrow”", - "decoded_text": "“It Only Happens Once...Yesterday and Tomorrow”", - "diff": [ - "replace text[21:22] --> decoded_text[21:24] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"…\"]" - }, - { - "text": "Get off the subway at Awaza Station and take exit ⑦, ⑧ or ⑩", - "decoded_text": "Get off the subway at Awaza Station and take exit 7, 8 or 10", - "diff": [ - "replace text[50:51] --> decoded_text[50:51] '⑦' --> '7'", - "replace text[53:54] --> decoded_text[53:54] '⑧' --> '8'", - "replace text[58:59] --> decoded_text[58:60] '⑩' --> '10'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.05084745762711865, - "oov_charset": "[\"⑦\", \"⑧\", \"⑩\"]" - } +[ + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": " EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": " Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + }, + { + "text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies… with sprinkles, of course.", + "decoded_text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies... with sprinkles, of course.", + "diff": [ + "replace text[345:346] --> decoded_text[345:348] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002680965147453083, + "oov_charset": "[\"…\"]" + }, + { + "text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them… love the library!", + "decoded_text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them... love the library!", + "diff": [ + "replace text[96:97] --> decoded_text[96:99] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"…\"]" + }, + { + "text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it…every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "decoded_text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it...every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "diff": [ + "replace text[228:229] --> decoded_text[228:231] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003115264797507788, + "oov_charset": "[\"…\"]" + }, + { + "text": "So, with your theme, we just use the default search widget? Or…do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "decoded_text": "So, with your theme, we just use the default search widget? Or...do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "diff": [ + "replace text[62:63] --> decoded_text[62:65] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004878048780487805, + "oov_charset": "[\"…\"]" + }, + { + "text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example … And i dont understand why", + "decoded_text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example ... And i dont understand why", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"…\"]" + }, + { + "text": "“It Only Happens Once…Yesterday and Tomorrow”", + "decoded_text": "“It Only Happens Once...Yesterday and Tomorrow”", + "diff": [ + "replace text[21:22] --> decoded_text[21:24] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"…\"]" + }, + { + "text": "Get off the subway at Awaza Station and take exit ⑦, ⑧ or ⑩", + "decoded_text": "Get off the subway at Awaza Station and take exit 7, 8 or 10", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] '⑦' --> '7'", + "replace text[53:54] --> decoded_text[53:54] '⑧' --> '8'", + "replace text[58:59] --> decoded_text[58:60] '⑩' --> '10'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05084745762711865, + "oov_charset": "[\"⑦\", \"⑧\", \"⑩\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json index 1a3f2b61f31a574da12d8b5f9754be17fac11c68..2bc9e0b61b6c417e43c94f6b3c98be21eb5c5f27 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l´Ebre (donde nos han tratado de maravilla)...", - "decoded_text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l ́Ebre (donde nos han tratado de maravilla)...", - "diff": [ - "replace text[403:404] --> decoded_text[403:405] '´' --> ' ́'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002232142857142857, - "oov_charset": "[\"´\"]" - }, - { - "text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior…”", - "decoded_text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior...”", - "diff": [ - "replace text[111:112] --> decoded_text[111:114] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008849557522123894, - "oov_charset": "[\"…\"]" - }, - { - "text": "Y ya una vez realmente en Japón… lo primero que hice fue ir a:", - "decoded_text": "Y ya una vez realmente en Japón... lo primero que hice fue ir a:", - "diff": [ - "replace text[31:32] --> decoded_text[31:34] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "Una vez cumplida esta mision, la siguiente parada era…", - "decoded_text": "Una vez cumplida esta mision, la siguiente parada era...", - "diff": [ - "replace text[53:54] --> decoded_text[53:56] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.018518518518518517, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l´Ebre (donde nos han tratado de maravilla)...", + "decoded_text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l ́Ebre (donde nos han tratado de maravilla)...", + "diff": [ + "replace text[403:404] --> decoded_text[403:405] '´' --> ' ́'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002232142857142857, + "oov_charset": "[\"´\"]" + }, + { + "text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior…”", + "decoded_text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior...”", + "diff": [ + "replace text[111:112] --> decoded_text[111:114] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008849557522123894, + "oov_charset": "[\"…\"]" + }, + { + "text": "Y ya una vez realmente en Japón… lo primero que hice fue ir a:", + "decoded_text": "Y ya una vez realmente en Japón... lo primero que hice fue ir a:", + "diff": [ + "replace text[31:32] --> decoded_text[31:34] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "Una vez cumplida esta mision, la siguiente parada era…", + "decoded_text": "Una vez cumplida esta mision, la siguiente parada era...", + "diff": [ + "replace text[53:54] --> decoded_text[53:56] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json index 9fc4cd663063f7d6ad89a9531b77cced3103d291..84be4e3fa8868e40e7a3e59b6251515b67349991 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un plat, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un plat, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[32:33] --> decoded_text[32:35] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01694915254237288, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un gâteau, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un gâteau, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un bonbon, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un bonbon, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une boisson, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une boisson, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu n’avais qu’un album a garder, ce serait… Insérez votre réponse ici", - "decoded_text": "- Si tu n’avais qu’un album a garder, ce serait... Insérez votre réponse ici", - "diff": [ - "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu n’avais qu’un livre à garder, ce serait… Insérez votre réponse ici", - "decoded_text": "- Si tu n’avais qu’un livre à garder, ce serait... Insérez votre réponse ici", - "diff": [ - "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013513513513513514, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un style de musique… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un style de musique... Insérez votre réponse ici", - "diff": [ - "replace text[33:34] --> decoded_text[33:36] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un plat, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un plat, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[32:33] --> decoded_text[32:35] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01694915254237288, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un gâteau, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un gâteau, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un bonbon, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un bonbon, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une boisson, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une boisson, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un album a garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un album a garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un livre à garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un livre à garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un style de musique… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un style de musique... Insérez votre réponse ici", + "diff": [ + "replace text[33:34] --> decoded_text[33:36] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json index 0ec1bfd939fcc66d40248792c75418e5105b28be..cc8d6f428bce220b9352d3aaff87f9babbc5c649 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json @@ -1,108 +1,108 @@ -[ - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", - "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '", - "replace text[41:42] --> decoded_text[41:42] '(' --> '('", - "replace text[47:48] --> decoded_text[47:48] ')' --> ')'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0625, - "oov_charset": "[\" \", \"(\", \")\"]" - }, - { - "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", - "decoded_text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく......世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'M' --> 'M'", - "replace text[44:46] --> decoded_text[44:50] '……' --> '......'", - "replace text[73:74] --> decoded_text[77:78] 'T' --> 'T'", - "replace text[105:106] --> decoded_text[109:110] 'M' --> 'M'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.033783783783783786, - "oov_charset": "[\"M\", \"…\", \"T\"]" - }, - { - "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", - "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", - "diff": [ - "replace text[38:39] --> decoded_text[38:39] '\\u3000' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\" \"]" - }, - { - "text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", - "decoded_text": "......いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", - "diff": [ - "replace text[0:2] --> decoded_text[0:6] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03389830508474576, - "oov_charset": "[\"…\"]" - }, - { - "text": "(だが、本稿をアップロードするのは、帰京してからのこととなることだろう)", - "decoded_text": "(だが、本稿をアップロードするのは、帰京してからのこととなることだろう)", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '(' --> '('", - "replace text[35:36] --> decoded_text[35:36] ')' --> ')'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.05555555555555555, - "oov_charset": "[\"(\", \")\"]" - }, - { - "text": "それが、30歳あたりを過ぎて以降……ほぼ完全に東京での生活中心となり、3年、4年とまったく戻らないまま、むしろ国外へと赴くことが増えてきたような時期が続いたにもかかわらず——およそ5年ほど前から、ほぼ毎月、もしくは隔月で、かの地との往復を繰り返すようになった理由の巨きな1つは、ともにそれ以前から身体機能にいささかの支障があった老親二人が、数度、その頃から相次いで小さからぬ手術を受けたりしたことがあった。", - "decoded_text": "それが、30歳あたりを過ぎて以降......ほぼ完全に東京での生活中心となり、3年、4年とまったく戻らないまま、むしろ国外へと赴くことが増えてきたような時期が続いたにもかかわらず——およそ5年ほど前から、ほぼ毎月、もしくは隔月で、かの地との往復を繰り返すようになった理由の巨きな1つは、ともにそれ以前から身体機能にいささかの支障があった老親二人が、数度、その頃から相次いで小さからぬ手術を受けたりしたことがあった。", - "diff": [ - "replace text[16:18] --> decoded_text[16:22] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.009852216748768473, - "oov_charset": "[\"…\"]" - }, - { - "text": "* 携帯電話は、ようやく最近、簡単なものを持たせるようにしたが、それでも必ずしも使いこなせてはいない。", - "decoded_text": "* 携帯電話は、ようやく最近、簡単なものを持たせるようにしたが、それでも必ずしも使いこなせてはいない。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '*' --> '*'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0196078431372549, - "oov_charset": "[\"*\"]" - }, - { - "text": "これまで、私もそこそこ、内外のクラシック=ヴィンテージ・ホテルを泊まり歩いた経験がないわけではなく、なんの間違いか、1冊、“ホテル紀行”の著書(**)まで持っている人間であるが、結局、これまでの人生で最も世話になっているホテルは、この「郷里」の町の小さなビジネス・ホテルにほかならない。", - "decoded_text": "これまで、私もそこそこ、内外のクラシック=ヴィンテージ・ホテルを泊まり歩いた経験がないわけではなく、なんの間違いか、1冊、“ホテル紀行”の著書(**)まで持っている人間であるが、結局、これまでの人生で最も世話になっているホテルは、この「郷里」の町の小さなビジネス・ホテルにほかならない。", - "diff": [ - "replace text[71:75] --> decoded_text[71:75] '(**)' --> '(**)'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.027972027972027972, - "oov_charset": "[\"(\", \"*\", \")\"]" - } +[ + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '", + "replace text[41:42] --> decoded_text[41:42] '(' --> '('", + "replace text[47:48] --> decoded_text[47:48] ')' --> ')'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0625, + "oov_charset": "[\" \", \"(\", \")\"]" + }, + { + "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "decoded_text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく......世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'M' --> 'M'", + "replace text[44:46] --> decoded_text[44:50] '……' --> '......'", + "replace text[73:74] --> decoded_text[77:78] 'T' --> 'T'", + "replace text[105:106] --> decoded_text[109:110] 'M' --> 'M'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.033783783783783786, + "oov_charset": "[\"M\", \"…\", \"T\"]" + }, + { + "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "diff": [ + "replace text[38:39] --> decoded_text[38:39] '\\u3000' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\" \"]" + }, + { + "text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", + "decoded_text": "......いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03389830508474576, + "oov_charset": "[\"…\"]" + }, + { + "text": "(だが、本稿をアップロードするのは、帰京してからのこととなることだろう)", + "decoded_text": "(だが、本稿をアップロードするのは、帰京してからのこととなることだろう)", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '(' --> '('", + "replace text[35:36] --> decoded_text[35:36] ')' --> ')'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.05555555555555555, + "oov_charset": "[\"(\", \")\"]" + }, + { + "text": "それが、30歳あたりを過ぎて以降……ほぼ完全に東京での生活中心となり、3年、4年とまったく戻らないまま、むしろ国外へと赴くことが増えてきたような時期が続いたにもかかわらず——およそ5年ほど前から、ほぼ毎月、もしくは隔月で、かの地との往復を繰り返すようになった理由の巨きな1つは、ともにそれ以前から身体機能にいささかの支障があった老親二人が、数度、その頃から相次いで小さからぬ手術を受けたりしたことがあった。", + "decoded_text": "それが、30歳あたりを過ぎて以降......ほぼ完全に東京での生活中心となり、3年、4年とまったく戻らないまま、むしろ国外へと赴くことが増えてきたような時期が続いたにもかかわらず——およそ5年ほど前から、ほぼ毎月、もしくは隔月で、かの地との往復を繰り返すようになった理由の巨きな1つは、ともにそれ以前から身体機能にいささかの支障があった老親二人が、数度、その頃から相次いで小さからぬ手術を受けたりしたことがあった。", + "diff": [ + "replace text[16:18] --> decoded_text[16:22] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.009852216748768473, + "oov_charset": "[\"…\"]" + }, + { + "text": "* 携帯電話は、ようやく最近、簡単なものを持たせるようにしたが、それでも必ずしも使いこなせてはいない。", + "decoded_text": "* 携帯電話は、ようやく最近、簡単なものを持たせるようにしたが、それでも必ずしも使いこなせてはいない。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '*' --> '*'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0196078431372549, + "oov_charset": "[\"*\"]" + }, + { + "text": "これまで、私もそこそこ、内外のクラシック=ヴィンテージ・ホテルを泊まり歩いた経験がないわけではなく、なんの間違いか、1冊、“ホテル紀行”の著書(**)まで持っている人間であるが、結局、これまでの人生で最も世話になっているホテルは、この「郷里」の町の小さなビジネス・ホテルにほかならない。", + "decoded_text": "これまで、私もそこそこ、内外のクラシック=ヴィンテージ・ホテルを泊まり歩いた経験がないわけではなく、なんの間違いか、1冊、“ホテル紀行”の著書(**)まで持っている人間であるが、結局、これまでの人生で最も世話になっているホテルは、この「郷里」の町の小さなビジネス・ホテルにほかならない。", + "diff": [ + "replace text[71:75] --> decoded_text[71:75] '(**)' --> '(**)'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.027972027972027972, + "oov_charset": "[\"(\", \"*\", \")\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json index ab8047c39376b118557522a889b9e2c40838e978..47db9598b3a1eb88799614bd26df57a4390e3c41 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "언제나 좋은 글 감사합니다ㅡㅡ", - "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", - "diff": [ - "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.125, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "좋은 자료 감사합니다ㅡ0ㅡ", - "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", - "diff": [ - "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", - "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.14285714285714285, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"⁴\"]" - }, - { - "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"¹\"]" - }, - { - "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "diff": [ - "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012048192771084338, - "oov_charset": "[\"…\"]" - }, - { - "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "diff": [ - "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010752688172043012, - "oov_charset": "[\"¹\"]" - }, - { - "text": "*²릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", - "decoded_text": "*2릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '²' --> '2'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011494252873563218, - "oov_charset": "[\"²\"]" - }, - { - "text": "좋은 정보 감사합니다ㅡㅡ", - "decoded_text": "좋은 정보 감사합니다ᅳᅳ", - "diff": [ - "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.15384615384615385, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "좋은 정보 감사합니다ㅡㅡ", - "decoded_text": "좋은 정보 감사합니다ᅳᅳ", - "diff": [ - "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.15384615384615385, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ㆍ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", - "decoded_text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ᆞ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", - "diff": [ - "replace text[53:54] --> decoded_text[53:54] 'ㆍ' --> 'ᆞ'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008333333333333333, - "oov_charset": "[\"ㆍ\"]" - } +[ + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + }, + { + "text": "*²릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "decoded_text": "*2릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '²' --> '2'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"²\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ㆍ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "decoded_text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ᆞ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "diff": [ + "replace text[53:54] --> decoded_text[53:54] 'ㆍ' --> 'ᆞ'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008333333333333333, + "oov_charset": "[\"ㆍ\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json index 584fe056e170b656d2a5d459453bbb7c7f5c7bd4..dae7f09428e4d66596baf3e1e2a78a8221656207 100644 --- a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "评论回顾1997年县市长选举,民进党在“地方包围中央”策略奏效下,一举拿下台湾12县市过半执政权,首次赢过国民党;2000年的台当局正领导人“大选”,陈水扁趁胜追击再下一城,完成史上首度政党轮替。", - "decoded_text": "评论回顾1997年县市长选举,民进党在“地方包围中央”策略奏效下,一举拿下台湾12县市过半执政权,首次赢过国民党;2000年的台当局正领导人“大选”,陈水扁趁胜追击再下一城,完成史上首度政党轮替。", - "diff": [ - "replace text[56:57] --> decoded_text[56:57] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01020408163265306, - "oov_charset": "[\";\"]" - }, - { - "text": "招财带什么佛牌没事你抱紧她我不心疼我没流泪我没想逃,像我们这种平时逗逼又嬉皮笑脸的人,偶尔稍微正常一点,周围的人都会以为你心情不好了。;忽然发现那些原来很在乎的东西现在已经变得无所谓了。。", - "decoded_text": "招财带什么佛牌没事你抱紧她我不心疼我没流泪我没想逃,像我们这种平时逗逼又嬉皮笑脸的人,偶尔稍微正常一点,周围的人都会以为你心情不好了。;忽然发现那些原来很在乎的东西现在已经变得无所谓了。。", - "diff": [ - "replace text[67:68] --> decoded_text[67:68] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010638297872340425, - "oov_charset": "[\";\"]" - }, - { - "text": "就算我脸皮再厚我也怕受伤,繁华落尽へ我与你谁痛谁伤何人知晓;我只是想要一个温暖的怀抱仅此而已。", - "decoded_text": "就算我脸皮再厚我也怕受伤,繁华落尽へ我与你谁痛谁伤何人知晓;我只是想要一个温暖的怀抱仅此而已。", - "diff": [ - "replace text[29:30] --> decoded_text[29:30] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02127659574468085, - "oov_charset": "[\";\"]" - }, - { - "text": "现在我很想哭,却惊奇的发现我已经哭不出来了。,时间模糊了太多声音,唯独心跳还清晰。;慢慢的 我也学着放下了 不是我变了 是我真的无能为力了 我认输了 我折腾不动了。", - "decoded_text": "现在我很想哭,却惊奇的发现我已经哭不出来了。,时间模糊了太多声音,唯独心跳还清晰。;慢慢的 我也学着放下了 不是我变了 是我真的无能为力了 我认输了 我折腾不动了。", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012195121951219513, - "oov_charset": "[\";\"]" - }, - { - "text": "那所谓的伤心,无非是那伤透的心情。,我总是喜欢往窗外看只不过是不想看到你看她那个眼神。;莫名我就喜欢你,深深的爱上你,从见到你的那一天起。。", - "decoded_text": "那所谓的伤心,无非是那伤透的心情。,我总是喜欢往窗外看只不过是不想看到你看她那个眼神。;莫名我就喜欢你,深深的爱上你,从见到你的那一天起。。", - "diff": [ - "replace text[43:44] --> decoded_text[43:44] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.014285714285714285, - "oov_charset": "[\";\"]" - }, - { - "text": "招财带什么佛牌有没有那么一刻觉得自己好可怜。,明明喜欢,为什么不说出口,一定要这样拖着拖着拖着,到最后谁都不认识谁吗!;我此刻的心情就好像身后有数以万计的羊驼在冲你自我介绍!。", - "decoded_text": "招财带什么佛牌有没有那么一刻觉得自己好可怜。,明明喜欢,为什么不说出口,一定要这样拖着拖着拖着,到最后谁都不认识谁吗!;我此刻的心情就好像身后有数以万计的羊驼在冲你自我介绍!。", - "diff": [ - "replace text[59:60] --> decoded_text[59:60] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\";\"]" - }, - { - "text": "我的心像一片冰天冻地的草原上趴着一只不高兴的兔子,又萌又冷酷。,我们微笑约定,沉默接受,彼此更成熟。;有些话只能偷偷拿出来纪念遗憾。", - "decoded_text": "我的心像一片冰天冻地的草原上趴着一只不高兴的兔子,又萌又冷酷。,我们微笑约定,沉默接受,彼此更成熟。;有些话只能偷偷拿出来纪念遗憾。", - "diff": [ - "replace text[50:51] --> decoded_text[50:51] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015151515151515152, - "oov_charset": "[\";\"]" - }, - { - "text": "你留下的记忆,陪我度过了无数个空虚的夜晚。,把你喜欢的事都做遍了还是无法靠近你;胖子永远得不到别人的呵护 摔得眼泪鼻涕都要喷出来了别人只会说 没事 她肉厚 摔不疼。", - "decoded_text": "你留下的记忆,陪我度过了无数个空虚的夜晚。,把你喜欢的事都做遍了还是无法靠近你;胖子永远得不到别人的呵护 摔得眼泪鼻涕都要喷出来了别人只会说 没事 她肉厚 摔不疼。", - "diff": [ - "replace text[39:40] --> decoded_text[39:40] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012195121951219513, - "oov_charset": "[\";\"]" - }, - { - "text": "没有恋爱照样有失恋的感觉,而且很强烈。,或许有一天我能够面无表情的望着你不言不语;像吞进了玻璃的碎片满口的鲜血却吐不出来。", - "decoded_text": "没有恋爱照样有失恋的感觉,而且很强烈。,或许有一天我能够面无表情的望着你不言不语;像吞进了玻璃的碎片满口的鲜血却吐不出来。", - "diff": [ - "replace text[40:41] --> decoded_text[40:41] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\";\"]" - }, - { - "text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", - "decoded_text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", - "diff": [ - "replace text[53:54] --> decoded_text[53:54] ';' --> ';'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\";\"]" - } +[ + { + "text": "评论回顾1997年县市长选举,民进党在“地方包围中央”策略奏效下,一举拿下台湾12县市过半执政权,首次赢过国民党;2000年的台当局正领导人“大选”,陈水扁趁胜追击再下一城,完成史上首度政党轮替。", + "decoded_text": "评论回顾1997年县市长选举,民进党在“地方包围中央”策略奏效下,一举拿下台湾12县市过半执政权,首次赢过国民党;2000年的台当局正领导人“大选”,陈水扁趁胜追击再下一城,完成史上首度政党轮替。", + "diff": [ + "replace text[56:57] --> decoded_text[56:57] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01020408163265306, + "oov_charset": "[\";\"]" + }, + { + "text": "招财带什么佛牌没事你抱紧她我不心疼我没流泪我没想逃,像我们这种平时逗逼又嬉皮笑脸的人,偶尔稍微正常一点,周围的人都会以为你心情不好了。;忽然发现那些原来很在乎的东西现在已经变得无所谓了。。", + "decoded_text": "招财带什么佛牌没事你抱紧她我不心疼我没流泪我没想逃,像我们这种平时逗逼又嬉皮笑脸的人,偶尔稍微正常一点,周围的人都会以为你心情不好了。;忽然发现那些原来很在乎的东西现在已经变得无所谓了。。", + "diff": [ + "replace text[67:68] --> decoded_text[67:68] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010638297872340425, + "oov_charset": "[\";\"]" + }, + { + "text": "就算我脸皮再厚我也怕受伤,繁华落尽へ我与你谁痛谁伤何人知晓;我只是想要一个温暖的怀抱仅此而已。", + "decoded_text": "就算我脸皮再厚我也怕受伤,繁华落尽へ我与你谁痛谁伤何人知晓;我只是想要一个温暖的怀抱仅此而已。", + "diff": [ + "replace text[29:30] --> decoded_text[29:30] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02127659574468085, + "oov_charset": "[\";\"]" + }, + { + "text": "现在我很想哭,却惊奇的发现我已经哭不出来了。,时间模糊了太多声音,唯独心跳还清晰。;慢慢的 我也学着放下了 不是我变了 是我真的无能为力了 我认输了 我折腾不动了。", + "decoded_text": "现在我很想哭,却惊奇的发现我已经哭不出来了。,时间模糊了太多声音,唯独心跳还清晰。;慢慢的 我也学着放下了 不是我变了 是我真的无能为力了 我认输了 我折腾不动了。", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012195121951219513, + "oov_charset": "[\";\"]" + }, + { + "text": "那所谓的伤心,无非是那伤透的心情。,我总是喜欢往窗外看只不过是不想看到你看她那个眼神。;莫名我就喜欢你,深深的爱上你,从见到你的那一天起。。", + "decoded_text": "那所谓的伤心,无非是那伤透的心情。,我总是喜欢往窗外看只不过是不想看到你看她那个眼神。;莫名我就喜欢你,深深的爱上你,从见到你的那一天起。。", + "diff": [ + "replace text[43:44] --> decoded_text[43:44] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014285714285714285, + "oov_charset": "[\";\"]" + }, + { + "text": "招财带什么佛牌有没有那么一刻觉得自己好可怜。,明明喜欢,为什么不说出口,一定要这样拖着拖着拖着,到最后谁都不认识谁吗!;我此刻的心情就好像身后有数以万计的羊驼在冲你自我介绍!。", + "decoded_text": "招财带什么佛牌有没有那么一刻觉得自己好可怜。,明明喜欢,为什么不说出口,一定要这样拖着拖着拖着,到最后谁都不认识谁吗!;我此刻的心情就好像身后有数以万计的羊驼在冲你自我介绍!。", + "diff": [ + "replace text[59:60] --> decoded_text[59:60] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\";\"]" + }, + { + "text": "我的心像一片冰天冻地的草原上趴着一只不高兴的兔子,又萌又冷酷。,我们微笑约定,沉默接受,彼此更成熟。;有些话只能偷偷拿出来纪念遗憾。", + "decoded_text": "我的心像一片冰天冻地的草原上趴着一只不高兴的兔子,又萌又冷酷。,我们微笑约定,沉默接受,彼此更成熟。;有些话只能偷偷拿出来纪念遗憾。", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\";\"]" + }, + { + "text": "你留下的记忆,陪我度过了无数个空虚的夜晚。,把你喜欢的事都做遍了还是无法靠近你;胖子永远得不到别人的呵护 摔得眼泪鼻涕都要喷出来了别人只会说 没事 她肉厚 摔不疼。", + "decoded_text": "你留下的记忆,陪我度过了无数个空虚的夜晚。,把你喜欢的事都做遍了还是无法靠近你;胖子永远得不到别人的呵护 摔得眼泪鼻涕都要喷出来了别人只会说 没事 她肉厚 摔不疼。", + "diff": [ + "replace text[39:40] --> decoded_text[39:40] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012195121951219513, + "oov_charset": "[\";\"]" + }, + { + "text": "没有恋爱照样有失恋的感觉,而且很强烈。,或许有一天我能够面无表情的望着你不言不语;像吞进了玻璃的碎片满口的鲜血却吐不出来。", + "decoded_text": "没有恋爱照样有失恋的感觉,而且很强烈。,或许有一天我能够面无表情的望着你不言不语;像吞进了玻璃的碎片满口的鲜血却吐不出来。", + "diff": [ + "replace text[40:41] --> decoded_text[40:41] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\";\"]" + }, + { + "text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", + "decoded_text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", + "diff": [ + "replace text[53:54] --> decoded_text[53:54] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\";\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json index f57b9b3a399b1685cdf97458eae8f3b14615f6e2..1b404e74325f91da605400377ee3e2265f8c8ddb 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json @@ -1,207 +1,207 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )", - "diff": [ - "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", - "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'", - "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'", - "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'", - "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'", - "insert text[49:49] --> decoded_text[45:46] '' --> ' '" - ], - "n_oov_chars": 8, - "oov_ratio": 0.16, - "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]" - }, - { - "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", - "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] الما [UNK] لما [UNK] اليه [UNK] ابنايها من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الماساة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل, ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] او [UNK] [UNK] او اية [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..", - "diff": [ - "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'", - "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '", - "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'", - "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''", - "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'", - "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'", - "replace text[176:187] --> decoded_text[173:209] 'أعماق أعماق' --> '[UNK] [UNK] الما [UNK] لما [UNK] الي'", - "replace text[188:195] --> decoded_text[210:233] 'ا ألماً' --> ' [UNK] ابنايها من [UNK]'", - "replace text[197:198] --> decoded_text[235:337] 'أ' --> 'من [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الما'", - "replace text[199:205] --> decoded_text[338:380] 'ىً لما' --> 'اة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل,'", - "replace text[207:456] --> decoded_text[382:452] 'صل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> 'من [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK]'", - "replace text[469:473] --> decoded_text[465:735] 'فاجأ' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] ا'", - "replace text[474:484] --> decoded_text[736:750] 'ا العالم ب' --> ' [UNK] [UNK] ا'", - "replace text[485:486] --> decoded_text[751:770] 'ح' --> ' اية [UNK] [UNK], ع'", - "replace text[487:852] --> decoded_text[771:831] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK]'", - "replace text[866:879] --> decoded_text[845:856] 'القرن العشرين' --> '[UNK] [UNK]'", - "insert text[886:886] --> decoded_text[863:892] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'", - "replace text[887:966] --> decoded_text[893:950] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'" - ], - "n_oov_chars": 163, - "oov_ratio": 0.16873706004140787, - "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" - }, - { - "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", - "decoded_text": "واليوم وبعد ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن ايا [UNK] تياراتهم السياسية, او [UNK] [UNK] او [UNK] او [UNK], ان [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ايمان..", - "diff": [ - "replace text[12:49] --> decoded_text[12:52] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'", - "replace text[55:75] --> decoded_text[58:78] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'", - "replace text[83:92] --> decoded_text[86:105] 'فإن الحكم' --> '[UNK] [UNK] اليماني'", - "replace text[94:133] --> decoded_text[107:140] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن ايا [UNK]'", - "replace text[153:198] --> decoded_text[160:192] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> 'او [UNK] [UNK] او [UNK] او [UNK]'", - "replace text[200:226] --> decoded_text[194:217] 'أن يستذكروا جيداً ما وصفهم' --> 'ان [UNK] [UNK] ما [UNK]'", - "replace text[244:277] --> decoded_text[235:268] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'", - "replace text[287:333] --> decoded_text[278:322] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إ' --> '[UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ا'" - ], - "n_oov_chars": 54, - "oov_ratio": 0.1592920353982301, - "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" - }, - { - "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", - "decoded_text": "[UNK] الرسول [UNK] ما هي الا [UNK] من الله.. [UNK] ان العمل بما [UNK] الرسول [UNK] هو مسوولية [UNK] ودينية ومسوولية سياسية..", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", - "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'", - "replace text[28:29] --> decoded_text[25:26] 'إ' --> 'ا'", - "replace text[32:35] --> decoded_text[29:34] 'وحي' --> '[UNK]'", - "replace text[46:51] --> decoded_text[45:50] 'بمعنى' --> '[UNK]'", - "replace text[52:53] --> decoded_text[51:52] 'أ' --> 'ا'", - "replace text[65:69] --> decoded_text[64:69] 'قاله' --> '[UNK]'", - "replace text[77:83] --> decoded_text[77:82] 'الأعظم' --> '[UNK]'", - "replace text[89:90] --> decoded_text[88:89] 'ؤ' --> 'و'", - "replace text[95:102] --> decoded_text[94:99] 'أخلاقية' --> '[UNK]'", - "replace text[113:114] --> decoded_text[110:111] 'ؤ' --> 'و'" - ], - "n_oov_chars": 16, - "oov_ratio": 0.12598425196850394, - "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]" - }, - { - "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", - "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] ان [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", - "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", - "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'", - "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", - "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", - "insert text[48:48] --> decoded_text[50:56] '' --> '[UNK] '", - "delete text[49:56] --> decoded_text[57:57] 'لحكمة أ' --> ''", - "replace text[58:61] --> decoded_text[59:64] 'تظل' --> '[UNK]'", - "replace text[62:70] --> decoded_text[65:70] 'البندقية' --> '[UNK]'", - "replace text[71:79] --> decoded_text[71:76] 'والقذيفة' --> '[UNK]'", - "replace text[89:95] --> decoded_text[86:91] 'الخطاب' --> '[UNK]'", - "replace text[96:103] --> decoded_text[92:97] 'والحوار' --> '[UNK]'", - "replace text[104:108] --> decoded_text[98:103] 'فيما' --> '[UNK]'", - "replace text[115:118] --> decoded_text[110:115] 'نحن' --> '[UNK]'", - "replace text[119:124] --> decoded_text[116:121] 'أبناء' --> '[UNK]'", - "replace text[125:128] --> decoded_text[122:127] 'هذا' --> '[UNK]'", - "replace text[135:141] --> decoded_text[134:139] 'العظيم' --> '[UNK]'" - ], - "n_oov_chars": 25, - "oov_ratio": 0.17482517482517482, - "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]" - }, - { - "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", - "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] اله..", - "diff": [ - "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'", - "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'", - "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'", - "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'", - "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'", - "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'", - "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'", - "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'", - "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'", - "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'", - "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'", - "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'", - "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'", - "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'", - "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'", - "replace text[152:153] --> decoded_text[148:149] 'آ' --> 'ا'" - ], - "n_oov_chars": 22, - "oov_ratio": 0.14012738853503184, - "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] لاعدايه..", - "diff": [ - "replace text[0:7] --> decoded_text[0:225] 'أنا لا ' --> 'انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] ل'", - "replace text[9:65] --> decoded_text[227:229] 'تقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري ف' --> 'دا'", - "delete text[69:226] --> decoded_text[233:233] ' أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> ''" - ], - "n_oov_chars": 47, - "oov_ratio": 0.2079646017699115, - "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]" - }, - { - "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", - "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] انهم بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوات بايدي [UNK] او [UNK], او [UNK].. [UNK]!", - "diff": [ - "replace text[6:7] --> decoded_text[6:58] 'أ' --> '[UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] ا'", - "delete text[9:58] --> decoded_text[60:60] 'ك من العدوان ومن الحصار حتى أولئك الذين يظنون أنه' --> ''", - "replace text[70:88] --> decoded_text[72:83] 'التأثيرات المباشرة' --> '[UNK] [UNK]'", - "replace text[121:125] --> decoded_text[116:128] 'والأ' --> '[UNK] والمتا'", - "replace text[127:134] --> decoded_text[130:358] 'اء والم' --> ' [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوا'", - "replace text[135:137] --> decoded_text[359:360] 'اع' --> ' '", - "replace text[138:150] --> decoded_text[361:380] ' طالت الجميع' --> 'ايدي [UNK] او [UNK]'", - "replace text[152:403] --> decoded_text[382:390] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> 'او [UNK]'", - "replace text[405:406] --> decoded_text[392:398] '؟' --> ' [UNK]'" - ], - "n_oov_chars": 73, - "oov_ratio": 0.17936117936117937, - "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" - }, - { - "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", - "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربية [UNK] اسلامية.. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل ابيب!!", - "diff": [ - "replace text[4:59] --> decoded_text[4:106] 'انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتن' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربي'", - "replace text[61:112] --> decoded_text[108:115] 'ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إ' --> '[UNK] ا'", - "replace text[121:126] --> decoded_text[124:129] 'أجندة' --> '[UNK]'", - "replace text[132:144] --> decoded_text[135:146] 'فيها الضمائر' --> '[UNK] [UNK]'", - "replace text[151:222] --> decoded_text[153:242] 'فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرا' --> '[UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[223:242] --> decoded_text[243:246] ' في واشنطن وفي تل أ' --> 'ل ا'" - ], - "n_oov_chars": 46, - "oov_ratio": 0.1862348178137652, - "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" - }, - { - "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", - "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد اهلها [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] ابو [UNK], [UNK] [UNK], [UNK] [UNK]..", - "diff": [ - "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", - "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", - "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", - "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", - "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", - "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", - "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", - "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", - "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", - "replace text[77:78] --> decoded_text[78:79] 'أ' --> 'ا'", - "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", - "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", - "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'", - "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'", - "replace text[149:153] --> decoded_text[140:152] 'وجهه' --> '[UNK] [UNK] '", - "delete text[154:160] --> decoded_text[153:153] ' صوب أ' --> ''", - "replace text[163:166] --> decoded_text[156:161] 'ظبي' --> '[UNK]'", - "replace text[168:172] --> decoded_text[163:168] 'وصوب' --> '[UNK]'", - "replace text[173:179] --> decoded_text[169:174] 'الرياض' --> '[UNK]'", - "replace text[181:185] --> decoded_text[176:181] 'وصوب' --> '[UNK]'", - "replace text[186:192] --> decoded_text[182:187] 'واشنطن' --> '[UNK]'" - ], - "n_oov_chars": 29, - "oov_ratio": 0.14948453608247422, - "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )", + "diff": [ + "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", + "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'", + "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'", + "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'", + "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'", + "insert text[49:49] --> decoded_text[45:46] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.16, + "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] الما [UNK] لما [UNK] اليه [UNK] ابنايها من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الماساة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل, ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] او [UNK] [UNK] او اية [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..", + "diff": [ + "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'", + "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '", + "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'", + "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''", + "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'", + "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'", + "replace text[176:187] --> decoded_text[173:209] 'أعماق أعماق' --> '[UNK] [UNK] الما [UNK] لما [UNK] الي'", + "replace text[188:195] --> decoded_text[210:233] 'ا ألماً' --> ' [UNK] ابنايها من [UNK]'", + "replace text[197:198] --> decoded_text[235:337] 'أ' --> 'من [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الما'", + "replace text[199:205] --> decoded_text[338:380] 'ىً لما' --> 'اة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل,'", + "replace text[207:456] --> decoded_text[382:452] 'صل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> 'من [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK]'", + "replace text[469:473] --> decoded_text[465:735] 'فاجأ' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "replace text[474:484] --> decoded_text[736:750] 'ا العالم ب' --> ' [UNK] [UNK] ا'", + "replace text[485:486] --> decoded_text[751:770] 'ح' --> ' اية [UNK] [UNK], ع'", + "replace text[487:852] --> decoded_text[771:831] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK]'", + "replace text[866:879] --> decoded_text[845:856] 'القرن العشرين' --> '[UNK] [UNK]'", + "insert text[886:886] --> decoded_text[863:892] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'", + "replace text[887:966] --> decoded_text[893:950] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'" + ], + "n_oov_chars": 163, + "oov_ratio": 0.16873706004140787, + "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "واليوم وبعد ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن ايا [UNK] تياراتهم السياسية, او [UNK] [UNK] او [UNK] او [UNK], ان [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ايمان..", + "diff": [ + "replace text[12:49] --> decoded_text[12:52] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'", + "replace text[55:75] --> decoded_text[58:78] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'", + "replace text[83:92] --> decoded_text[86:105] 'فإن الحكم' --> '[UNK] [UNK] اليماني'", + "replace text[94:133] --> decoded_text[107:140] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن ايا [UNK]'", + "replace text[153:198] --> decoded_text[160:192] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> 'او [UNK] [UNK] او [UNK] او [UNK]'", + "replace text[200:226] --> decoded_text[194:217] 'أن يستذكروا جيداً ما وصفهم' --> 'ان [UNK] [UNK] ما [UNK]'", + "replace text[244:277] --> decoded_text[235:268] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'", + "replace text[287:333] --> decoded_text[278:322] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إ' --> '[UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ا'" + ], + "n_oov_chars": 54, + "oov_ratio": 0.1592920353982301, + "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "[UNK] الرسول [UNK] ما هي الا [UNK] من الله.. [UNK] ان العمل بما [UNK] الرسول [UNK] هو مسوولية [UNK] ودينية ومسوولية سياسية..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", + "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'", + "replace text[28:29] --> decoded_text[25:26] 'إ' --> 'ا'", + "replace text[32:35] --> decoded_text[29:34] 'وحي' --> '[UNK]'", + "replace text[46:51] --> decoded_text[45:50] 'بمعنى' --> '[UNK]'", + "replace text[52:53] --> decoded_text[51:52] 'أ' --> 'ا'", + "replace text[65:69] --> decoded_text[64:69] 'قاله' --> '[UNK]'", + "replace text[77:83] --> decoded_text[77:82] 'الأعظم' --> '[UNK]'", + "replace text[89:90] --> decoded_text[88:89] 'ؤ' --> 'و'", + "replace text[95:102] --> decoded_text[94:99] 'أخلاقية' --> '[UNK]'", + "replace text[113:114] --> decoded_text[110:111] 'ؤ' --> 'و'" + ], + "n_oov_chars": 16, + "oov_ratio": 0.12598425196850394, + "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] ان [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", + "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", + "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'", + "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", + "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", + "insert text[48:48] --> decoded_text[50:56] '' --> '[UNK] '", + "delete text[49:56] --> decoded_text[57:57] 'لحكمة أ' --> ''", + "replace text[58:61] --> decoded_text[59:64] 'تظل' --> '[UNK]'", + "replace text[62:70] --> decoded_text[65:70] 'البندقية' --> '[UNK]'", + "replace text[71:79] --> decoded_text[71:76] 'والقذيفة' --> '[UNK]'", + "replace text[89:95] --> decoded_text[86:91] 'الخطاب' --> '[UNK]'", + "replace text[96:103] --> decoded_text[92:97] 'والحوار' --> '[UNK]'", + "replace text[104:108] --> decoded_text[98:103] 'فيما' --> '[UNK]'", + "replace text[115:118] --> decoded_text[110:115] 'نحن' --> '[UNK]'", + "replace text[119:124] --> decoded_text[116:121] 'أبناء' --> '[UNK]'", + "replace text[125:128] --> decoded_text[122:127] 'هذا' --> '[UNK]'", + "replace text[135:141] --> decoded_text[134:139] 'العظيم' --> '[UNK]'" + ], + "n_oov_chars": 25, + "oov_ratio": 0.17482517482517482, + "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] اله..", + "diff": [ + "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'", + "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'", + "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'", + "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'", + "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'", + "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'", + "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'", + "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'", + "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'", + "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'", + "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'", + "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'", + "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'", + "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'", + "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'", + "replace text[152:153] --> decoded_text[148:149] 'آ' --> 'ا'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.14012738853503184, + "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] لاعدايه..", + "diff": [ + "replace text[0:7] --> decoded_text[0:225] 'أنا لا ' --> 'انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] ل'", + "replace text[9:65] --> decoded_text[227:229] 'تقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري ف' --> 'دا'", + "delete text[69:226] --> decoded_text[233:233] ' أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.2079646017699115, + "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] انهم بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوات بايدي [UNK] او [UNK], او [UNK].. [UNK]!", + "diff": [ + "replace text[6:7] --> decoded_text[6:58] 'أ' --> '[UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "delete text[9:58] --> decoded_text[60:60] 'ك من العدوان ومن الحصار حتى أولئك الذين يظنون أنه' --> ''", + "replace text[70:88] --> decoded_text[72:83] 'التأثيرات المباشرة' --> '[UNK] [UNK]'", + "replace text[121:125] --> decoded_text[116:128] 'والأ' --> '[UNK] والمتا'", + "replace text[127:134] --> decoded_text[130:358] 'اء والم' --> ' [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوا'", + "replace text[135:137] --> decoded_text[359:360] 'اع' --> ' '", + "replace text[138:150] --> decoded_text[361:380] ' طالت الجميع' --> 'ايدي [UNK] او [UNK]'", + "replace text[152:403] --> decoded_text[382:390] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> 'او [UNK]'", + "replace text[405:406] --> decoded_text[392:398] '؟' --> ' [UNK]'" + ], + "n_oov_chars": 73, + "oov_ratio": 0.17936117936117937, + "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربية [UNK] اسلامية.. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل ابيب!!", + "diff": [ + "replace text[4:59] --> decoded_text[4:106] 'انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتن' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربي'", + "replace text[61:112] --> decoded_text[108:115] 'ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إ' --> '[UNK] ا'", + "replace text[121:126] --> decoded_text[124:129] 'أجندة' --> '[UNK]'", + "replace text[132:144] --> decoded_text[135:146] 'فيها الضمائر' --> '[UNK] [UNK]'", + "replace text[151:222] --> decoded_text[153:242] 'فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرا' --> '[UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[223:242] --> decoded_text[243:246] ' في واشنطن وفي تل أ' --> 'ل ا'" + ], + "n_oov_chars": 46, + "oov_ratio": 0.1862348178137652, + "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد اهلها [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] ابو [UNK], [UNK] [UNK], [UNK] [UNK]..", + "diff": [ + "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", + "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", + "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", + "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", + "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", + "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", + "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", + "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", + "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", + "replace text[77:78] --> decoded_text[78:79] 'أ' --> 'ا'", + "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", + "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", + "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'", + "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'", + "replace text[149:153] --> decoded_text[140:152] 'وجهه' --> '[UNK] [UNK] '", + "delete text[154:160] --> decoded_text[153:153] ' صوب أ' --> ''", + "replace text[163:166] --> decoded_text[156:161] 'ظبي' --> '[UNK]'", + "replace text[168:172] --> decoded_text[163:168] 'وصوب' --> '[UNK]'", + "replace text[173:179] --> decoded_text[169:174] 'الرياض' --> '[UNK]'", + "replace text[181:185] --> decoded_text[176:181] 'وصوب' --> '[UNK]'", + "replace text[186:192] --> decoded_text[182:187] 'واشنطن' --> '[UNK]'" + ], + "n_oov_chars": 29, + "oov_ratio": 0.14948453608247422, + "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json index 43d6be5c2ea81322744e4b163070dbd9391c5463..b90e48ed8f6e539f679cc949cccd9a4dcd945a97 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json @@ -1,212 +1,212 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht [UNK] in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", - "diff": [ - "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", - "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", - "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", - "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", - "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", - "replace text[75:88] --> decoded_text[78:97] '“ in Siegburg' --> ' [UNK] in siegburg '", - "replace text[89:90] --> decoded_text[98:100] 'K' --> ' k'", - "replace text[104:105] --> decoded_text[114:115] 'U' --> 'u'", - "replace text[109:110] --> decoded_text[119:121] 'E' --> ' e'", - "insert text[120:120] --> decoded_text[131:132] '' --> ' '", - "replace text[123:126] --> decoded_text[135:139] 'Uhr' --> 'uhr '", - "replace text[131:152] --> decoded_text[144:165] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", - "replace text[159:178] --> decoded_text[172:191] 'ören. Hier ist im E' --> 'oren. hier ist im e'", - "insert text[199:199] --> decoded_text[212:213] '' --> ' '", - "replace text[208:231] --> decoded_text[222:245] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", - "replace text[254:255] --> decoded_text[268:269] 'M' --> 'm'", - "replace text[267:280] --> decoded_text[281:294] 'ür die Gäste.' --> 'ur die gaste.'" - ], - "n_oov_chars": 25, - "oov_ratio": 0.08928571428571429, - "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"“\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht [UNK] an.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", - "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", - "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", - "insert text[64:64] --> decoded_text[65:66] '' --> ' '", - "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", - "replace text[74:75] --> decoded_text[77:83] '“' --> ' [UNK]'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.10126582278481013, - "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\", \"“\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", - "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", - "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", - "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", - "insert text[62:62] --> decoded_text[62:63] '' --> ' '", - "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", - "insert text[66:66] --> decoded_text[67:68] '' --> ' '", - "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", - "insert text[91:91] --> decoded_text[96:97] '' --> ' '", - "insert text[92:92] --> decoded_text[98:99] '' --> ' '", - "insert text[93:93] --> decoded_text[100:101] '' --> ' '", - "insert text[94:94] --> decoded_text[102:103] '' --> ' '", - "insert text[101:101] --> decoded_text[110:111] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.06796116504854369, - "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", - "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", - "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", - "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.12, - "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", - "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", - "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", - "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", - "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", - "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", - "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", - "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", - "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", - "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", - "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", - "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", - "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", - "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", - "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", - "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", - "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" - ], - "n_oov_chars": 41, - "oov_ratio": 0.06047197640117994, - "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", - "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", - "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", - "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", - "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", - "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", - "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", - "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", - "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", - "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", - "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.05429864253393665, - "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", - "diff": [ - "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", - "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", - "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", - "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", - "insert text[176:176] --> decoded_text[176:177] '' --> ' '", - "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", - "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", - "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", - "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", - "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", - "insert text[394:394] --> decoded_text[395:396] '' --> ' '", - "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.053830227743271224, - "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", - "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", - "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", - "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", - "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.07407407407407407, - "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", - "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", - "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", - "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", - "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", - "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", - "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", - "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", - "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", - "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", - "insert text[188:188] --> decoded_text[188:189] '' --> ' '" - ], - "n_oov_chars": 10, - "oov_ratio": 0.05291005291005291, - "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", - "diff": [ - "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", - "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", - "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", - "insert text[87:87] --> decoded_text[87:88] '' --> ' '", - "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", - "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", - "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", - "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", - "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", - "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", - "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", - "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", - "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", - "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", - "insert text[188:188] --> decoded_text[190:191] '' --> ' '", - "insert text[189:189] --> decoded_text[192:193] '' --> ' '" - ], - "n_oov_chars": 13, - "oov_ratio": 0.06842105263157895, - "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht [UNK] in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "replace text[75:88] --> decoded_text[78:97] '“ in Siegburg' --> ' [UNK] in siegburg '", + "replace text[89:90] --> decoded_text[98:100] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[114:115] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[119:121] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[131:132] '' --> ' '", + "replace text[123:126] --> decoded_text[135:139] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[144:165] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[172:191] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[212:213] '' --> ' '", + "replace text[208:231] --> decoded_text[222:245] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[268:269] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[281:294] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 25, + "oov_ratio": 0.08928571428571429, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"“\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht [UNK] an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "replace text[74:75] --> decoded_text[77:83] '“' --> ' [UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.10126582278481013, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\", \"“\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json index 5d8eb47c6425470309be552e986a6c2ca06970be..cdd40982fa491ef46bebeb9607f896cd911a4845 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json @@ -1,163 +1,163 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.03461538461538462, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "[UNK] within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", - "diff": [ - "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", - "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[64:65] '' --> ' '", - "insert text[66:66] --> decoded_text[78:79] '' --> ' '", - "insert text[79:79] --> decoded_text[92:93] '' --> ' '", - "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", - "replace text[156:175] --> decoded_text[175:194] 'Christa Frosch of S' --> 'christa frosch of s'", - "replace text[181:191] --> decoded_text[200:216] '’s tells B' --> ' [UNK] s tells b'", - "replace text[194:195] --> decoded_text[219:220] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[223:224] 'N' --> 'n'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.054187192118226604, - "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "insert text[340:340] --> decoded_text[345:346] '' --> ' '", - "insert text[376:376] --> decoded_text[382:383] '' --> ' '", - "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.015424164524421594, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "[UNK] we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", - "diff": [ - "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", - "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", - "replace text[60:61] --> decoded_text[71:72] 'S' --> 's'", - "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", - "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", - "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'", - "replace text[116:117] --> decoded_text[144:145] 'F' --> 'f'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.06504065040650407, - "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", - "insert text[57:57] --> decoded_text[63:64] '' --> ' '", - "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", - "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", - "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.02109704641350211, - "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[156:175] --> decoded_text[175:194] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[181:191] --> decoded_text[200:216] '’s tells B' --> ' [UNK] s tells b'", + "replace text[194:195] --> decoded_text[219:220] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[223:224] 'N' --> 'n'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.054187192118226604, + "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[71:72] 'S' --> 's'", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'", + "replace text[116:117] --> decoded_text[144:145] 'F' --> 'f'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06504065040650407, + "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.02109704641350211, + "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json index d54201f9a79b49121401230064fece83ff7e6693..b409db94010b1e94380545f5ace2d068df2911aa 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json @@ -1,132 +1,132 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[19:20] '' --> ' '", - "insert text[16:16] --> decoded_text[21:22] '' --> ' '", - "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.06349206349206349, - "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json index 75bd0454a3c31ec6a6dfb75dcdb0fe483cc7efbc..ba77ace74cd930192aac49260745a040f82d0079 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json @@ -1,153 +1,153 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "[UNK] [UNK] من : february 2012", - "diff": [ - "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", - "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", - "insert text[16:16] --> decoded_text[14:15] '' --> ' '", - "replace text[18:19] --> decoded_text[17:18] 'F' --> 'f'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.2903225806451613, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "[UNK] [UNK] من", - "diff": [ - "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", - "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.625, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", - "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", - "insert text[11:11] --> decoded_text[13:14] '' --> ' '", - "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", - "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", - "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.4230769230769231, - "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", - "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.2222222222222222, - "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", - "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'", - "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'", - "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.16666666666666666, - "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[7:7] --> decoded_text[11:12] '' --> ' '", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '", - "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'", - "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'", - "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.3333333333333333, - "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", - "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", - "insert text[12:12] --> decoded_text[13:14] '' --> ' '", - "insert text[16:16] --> decoded_text[18:19] '' --> ' '", - "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''", - "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'", - "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.3225806451612903, - "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]" - }, - { - "text": "فر رو روی 350 درجه فارنهایت روشن کنید", - "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", - "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'", - "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'", - "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'", - "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'", - "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.21621621621621623, - "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]" - }, - { - "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", - "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", - "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'", - "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'", - "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'", - "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'", - "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'", - "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'", - "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'", - "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'", - "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'", - "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'" - ], - "n_oov_chars": 18, - "oov_ratio": 0.20689655172413793, - "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]" - }, - { - "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", - "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]", - "diff": [ - "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'", - "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'", - "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'", - "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'", - "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'", - "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'", - "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'" - ], - "n_oov_chars": 12, - "oov_ratio": 0.2553191489361702, - "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "[UNK] [UNK] من : february 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "insert text[16:16] --> decoded_text[14:15] '' --> ' '", + "replace text[18:19] --> decoded_text[17:18] 'F' --> 'f'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.2903225806451613, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "[UNK] [UNK] من", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.625, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", + "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", + "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", + "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.4230769230769231, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", + "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.2222222222222222, + "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", + "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'", + "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'", + "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.16666666666666666, + "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[7:7] --> decoded_text[11:12] '' --> ' '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '", + "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'", + "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'", + "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.3333333333333333, + "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", + "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "insert text[16:16] --> decoded_text[18:19] '' --> ' '", + "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''", + "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'", + "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.3225806451612903, + "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", + "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'", + "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'", + "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'", + "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'", + "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.21621621621621623, + "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", + "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'", + "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'", + "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'", + "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'", + "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'", + "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'", + "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'", + "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'", + "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'", + "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.20689655172413793, + "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]", + "diff": [ + "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'", + "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'", + "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'", + "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'", + "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'", + "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'", + "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 12, + "oov_ratio": 0.2553191489361702, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json index 8b1f95d2ba8971bd478b0f0c0c970ba16bb9691e..9962b31e5f12fd9cd77d6b9ad15eb1438b676faf 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json @@ -1,317 +1,317 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午 後 から 雨 か 心 配 たったのて 遠 出 はせす 、 『 ふれあいロート 』 を 走 って 来 ました !", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "replace text[5:6] --> decoded_text[8:11] 'が' --> ' か '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "replace text[8:9] --> decoded_text[14:16] 'だ' --> ' た'", - "replace text[12:13] --> decoded_text[19:21] 'で' --> 'て '", - "insert text[14:14] --> decoded_text[22:23] '' --> ' '", - "insert text[15:15] --> decoded_text[24:25] '' --> ' '", - "replace text[17:18] --> decoded_text[27:29] 'ず' --> 'す '", - "insert text[19:19] --> decoded_text[30:31] '' --> ' '", - "insert text[20:20] --> decoded_text[32:33] '' --> ' '", - "replace text[26:27] --> decoded_text[39:41] 'ド' --> 'ト '", - "insert text[28:28] --> decoded_text[42:43] '' --> ' '", - "insert text[29:29] --> decoded_text[44:45] '' --> ' '", - "insert text[30:30] --> decoded_text[46:47] '' --> ' '", - "insert text[32:32] --> decoded_text[49:50] '' --> ' '", - "insert text[33:33] --> decoded_text[51:52] '' --> ' '", - "insert text[36:36] --> decoded_text[55:56] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.13513513513513514, - "oov_charset": "[\"が\", \"だ\", \"で\", \"ず\", \"ド\"]" - }, - { - "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", - "decoded_text": "確 実 に 春 か 近 ついてることを 肌 て 感 しることか 出 来 ました 着 々と 整 備 されてる 圏 央 道 を 越 えるとお 世 話 になってるホウリンク 場 か 見 えて 来 ました 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "replace text[4:5] --> decoded_text[7:10] 'が' --> ' か '", - "replace text[6:7] --> decoded_text[11:13] 'づ' --> ' つ'", - "insert text[13:13] --> decoded_text[19:20] '' --> ' '", - "replace text[14:15] --> decoded_text[21:24] 'で' --> ' て '", - "replace text[16:17] --> decoded_text[25:27] 'じ' --> ' し'", - "replace text[20:21] --> decoded_text[30:32] 'が' --> 'か '", - "insert text[22:22] --> decoded_text[33:34] '' --> ' '", - "insert text[23:23] --> decoded_text[35:36] '' --> ' '", - "insert text[28:28] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[44:45] '' --> ' '", - "insert text[31:31] --> decoded_text[46:47] '' --> ' '", - "insert text[32:32] --> decoded_text[48:49] '' --> ' '", - "insert text[36:36] --> decoded_text[53:54] '' --> ' '", - "insert text[37:37] --> decoded_text[55:56] '' --> ' '", - "insert text[38:38] --> decoded_text[57:58] '' --> ' '", - "insert text[39:39] --> decoded_text[59:60] '' --> ' '", - "insert text[40:40] --> decoded_text[61:62] '' --> ' '", - "insert text[41:41] --> decoded_text[63:64] '' --> ' '", - "insert text[45:45] --> decoded_text[68:69] '' --> ' '", - "insert text[46:46] --> decoded_text[70:71] '' --> ' '", - "insert text[47:47] --> decoded_text[72:73] '' --> ' '", - "replace text[52:53] --> decoded_text[78:79] 'ボ' --> 'ホ'", - "replace text[56:57] --> decoded_text[82:84] 'グ' --> 'ク '", - "replace text[58:59] --> decoded_text[85:88] 'が' --> ' か '", - "insert text[60:60] --> decoded_text[89:90] '' --> ' '", - "insert text[62:62] --> decoded_text[92:93] '' --> ' '", - "insert text[63:63] --> decoded_text[94:95] '' --> ' '", - "insert text[66:66] --> decoded_text[98:99] '' --> ' '" - ], - "n_oov_chars": 8, - "oov_ratio": 0.11940298507462686, - "oov_charset": "[\"が\", \"づ\", \"で\", \"じ\", \"ボ\", \"グ\"]" - }, - { - "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "decoded_text": "[UNK] 〜 〜 、 私 か 途 中 てトイレに 行 きたくなってしまい 、 通 り 道 にあったケンタに 変 更 しちゃいました 。", - "diff": [ - "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '", - "insert text[3:3] --> decoded_text[7:8] '' --> ' '", - "insert text[4:4] --> decoded_text[9:10] '' --> ' '", - "insert text[5:5] --> decoded_text[11:12] '' --> ' '", - "replace text[6:7] --> decoded_text[13:16] 'が' --> ' か '", - "insert text[8:8] --> decoded_text[17:18] '' --> ' '", - "replace text[9:10] --> decoded_text[19:21] 'で' --> ' て'", - "insert text[14:14] --> decoded_text[25:26] '' --> ' '", - "insert text[15:15] --> decoded_text[27:28] '' --> ' '", - "insert text[24:24] --> decoded_text[37:38] '' --> ' '", - "insert text[25:25] --> decoded_text[39:40] '' --> ' '", - "insert text[26:26] --> decoded_text[41:42] '' --> ' '", - "insert text[27:27] --> decoded_text[43:44] '' --> ' '", - "insert text[28:28] --> decoded_text[45:46] '' --> ' '", - "insert text[36:36] --> decoded_text[54:55] '' --> ' '", - "insert text[37:37] --> decoded_text[56:57] '' --> ' '", - "insert text[38:38] --> decoded_text[58:59] '' --> ' '", - "insert text[45:45] --> decoded_text[66:67] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.06521739130434782, - "oov_charset": "[\"ぅ\", \"が\", \"で\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実 は 、 1 年 程 前 にエルモサの 右 目 の 黒 目 の 端 によ 〜 く 見 ないと 分 からない 程 の 小 さな 斑 を 見 つけてたんてす 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[13:13] --> decoded_text[20:21] '' --> ' '", - "insert text[14:14] --> decoded_text[22:23] '' --> ' '", - "insert text[15:15] --> decoded_text[24:25] '' --> ' '", - "insert text[16:16] --> decoded_text[26:27] '' --> ' '", - "insert text[17:17] --> decoded_text[28:29] '' --> ' '", - "insert text[18:18] --> decoded_text[30:31] '' --> ' '", - "insert text[19:19] --> decoded_text[32:33] '' --> ' '", - "insert text[20:20] --> decoded_text[34:35] '' --> ' '", - "insert text[22:22] --> decoded_text[37:38] '' --> ' '", - "insert text[23:23] --> decoded_text[39:40] '' --> ' '", - "insert text[24:24] --> decoded_text[41:42] '' --> ' '", - "insert text[25:25] --> decoded_text[43:44] '' --> ' '", - "insert text[28:28] --> decoded_text[47:48] '' --> ' '", - "insert text[29:29] --> decoded_text[49:50] '' --> ' '", - "insert text[33:33] --> decoded_text[54:55] '' --> ' '", - "insert text[34:34] --> decoded_text[56:57] '' --> ' '", - "insert text[35:35] --> decoded_text[58:59] '' --> ' '", - "insert text[36:36] --> decoded_text[60:61] '' --> ' '", - "insert text[38:38] --> decoded_text[63:64] '' --> ' '", - "insert text[39:39] --> decoded_text[65:66] '' --> ' '", - "insert text[40:40] --> decoded_text[67:68] '' --> ' '", - "insert text[41:41] --> decoded_text[69:70] '' --> ' '", - "replace text[46:47] --> decoded_text[75:76] 'で' --> 'て'", - "insert text[48:48] --> decoded_text[77:78] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"で\"]" - }, - { - "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", - "decoded_text": "その 時 点 て 先 生 からはおそらく 『 角 膜 シストロフィー 』 てあろうとの 診 断 をもらっていました 。", - "diff": [ - "insert text[2:2] --> decoded_text[2:3] '' --> ' '", - "insert text[3:3] --> decoded_text[4:5] '' --> ' '", - "replace text[4:5] --> decoded_text[6:9] 'で' --> ' て '", - "insert text[6:6] --> decoded_text[10:11] '' --> ' '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "insert text[14:14] --> decoded_text[20:21] '' --> ' '", - "insert text[15:15] --> decoded_text[22:23] '' --> ' '", - "insert text[16:16] --> decoded_text[24:25] '' --> ' '", - "replace text[17:18] --> decoded_text[26:28] 'ジ' --> ' シ'", - "insert text[24:24] --> decoded_text[34:35] '' --> ' '", - "replace text[25:26] --> decoded_text[36:38] 'で' --> ' て'", - "insert text[31:31] --> decoded_text[43:44] '' --> ' '", - "insert text[32:32] --> decoded_text[45:46] '' --> ' '", - "insert text[33:33] --> decoded_text[47:48] '' --> ' '", - "insert text[42:42] --> decoded_text[57:58] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.06976744186046512, - "oov_charset": "[\"で\", \"ジ\"]" - }, - { - "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", - "decoded_text": "エルモサの 場 合 は1 年 程 経 過 して 徐 々にてはあるんてすけと 、 少 し 大 きくなってきちゃいました", - "diff": [ - "insert text[5:5] --> decoded_text[5:6] '' --> ' '", - "insert text[6:6] --> decoded_text[7:8] '' --> ' '", - "insert text[7:7] --> decoded_text[9:10] '' --> ' '", - "insert text[9:9] --> decoded_text[12:13] '' --> ' '", - "insert text[10:10] --> decoded_text[14:15] '' --> ' '", - "insert text[11:11] --> decoded_text[16:17] '' --> ' '", - "insert text[12:12] --> decoded_text[18:19] '' --> ' '", - "insert text[13:13] --> decoded_text[20:21] '' --> ' '", - "insert text[15:15] --> decoded_text[23:24] '' --> ' '", - "insert text[16:16] --> decoded_text[25:26] '' --> ' '", - "replace text[18:19] --> decoded_text[28:29] 'で' --> 'て'", - "replace text[23:24] --> decoded_text[33:34] 'で' --> 'て'", - "replace text[26:27] --> decoded_text[36:38] 'ど' --> 'と '", - "insert text[28:28] --> decoded_text[39:40] '' --> ' '", - "insert text[29:29] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[43:44] '' --> ' '", - "insert text[31:31] --> decoded_text[45:46] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.06976744186046512, - "oov_charset": "[\"で\", \"ど\"]" - }, - { - "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "decoded_text": "たた 、 これまてお 散 歩 仲 間 からは 指 摘 とかされたことはないのて 、 こちらから 言 わなけれはそんなに 目 立 つ 程 てはないんてすけとね 。", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '", - "insert text[3:3] --> decoded_text[4:5] '' --> ' '", - "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'", - "insert text[8:8] --> decoded_text[10:11] '' --> ' '", - "insert text[9:9] --> decoded_text[12:13] '' --> ' '", - "insert text[10:10] --> decoded_text[14:15] '' --> ' '", - "insert text[11:11] --> decoded_text[16:17] '' --> ' '", - "insert text[12:12] --> decoded_text[18:19] '' --> ' '", - "insert text[15:15] --> decoded_text[22:23] '' --> ' '", - "insert text[16:16] --> decoded_text[24:25] '' --> ' '", - "insert text[17:17] --> decoded_text[26:27] '' --> ' '", - "replace text[28:29] --> decoded_text[38:40] 'で' --> 'て '", - "insert text[30:30] --> decoded_text[41:42] '' --> ' '", - "insert text[35:35] --> decoded_text[47:48] '' --> ' '", - "insert text[36:36] --> decoded_text[49:50] '' --> ' '", - "replace text[40:41] --> decoded_text[54:55] 'ば' --> 'は'", - "insert text[45:45] --> decoded_text[59:60] '' --> ' '", - "insert text[46:46] --> decoded_text[61:62] '' --> ' '", - "insert text[47:47] --> decoded_text[63:64] '' --> ' '", - "insert text[48:48] --> decoded_text[65:66] '' --> ' '", - "replace text[49:50] --> decoded_text[67:69] 'で' --> ' て'", - "replace text[54:55] --> decoded_text[73:74] 'で' --> 'て'", - "replace text[57:58] --> decoded_text[76:77] 'ど' --> 'と'", - "insert text[59:59] --> decoded_text[78:79] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.11666666666666667, - "oov_charset": "[\"だ\", \"で\", \"ば\", \"ど\"]" - }, - { - "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", - "decoded_text": "昔 はヒアルロン 酸 の 目 薬 なとも 処 方 されてたようてすか 、 これか 効 く 事 はないそうてす 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[7:7] --> decoded_text[8:9] '' --> ' '", - "insert text[8:8] --> decoded_text[10:11] '' --> ' '", - "insert text[9:9] --> decoded_text[12:13] '' --> ' '", - "insert text[10:10] --> decoded_text[14:15] '' --> ' '", - "insert text[11:11] --> decoded_text[16:17] '' --> ' '", - "replace text[12:13] --> decoded_text[18:19] 'ど' --> 'と'", - "insert text[14:14] --> decoded_text[20:21] '' --> ' '", - "insert text[15:15] --> decoded_text[22:23] '' --> ' '", - "insert text[16:16] --> decoded_text[24:25] '' --> ' '", - "replace text[22:23] --> decoded_text[31:32] 'で' --> 'て'", - "replace text[24:25] --> decoded_text[33:35] 'が' --> 'か '", - "insert text[26:26] --> decoded_text[36:37] '' --> ' '", - "replace text[28:29] --> decoded_text[39:41] 'が' --> 'か '", - "insert text[30:30] --> decoded_text[42:43] '' --> ' '", - "insert text[31:31] --> decoded_text[44:45] '' --> ' '", - "insert text[32:32] --> decoded_text[46:47] '' --> ' '", - "replace text[37:38] --> decoded_text[52:53] 'で' --> 'て'", - "insert text[39:39] --> decoded_text[54:55] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.125, - "oov_charset": "[\"ど\", \"で\", \"が\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なのて 、 エルティとのお 散 歩 ても 訪 れたことかありません 。 カタクリの 花 か5 分 咲 きとの 情 報 から 今 回 コースの1つに 取 り 入 れてみました 。", - "diff": [ - "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '", - "insert text[4:4] --> decoded_text[5:6] '' --> ' '", - "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'", - "insert text[11:11] --> decoded_text[13:14] '' --> ' '", - "insert text[12:12] --> decoded_text[15:16] '' --> ' '", - "replace text[13:14] --> decoded_text[17:19] 'で' --> ' て'", - "insert text[15:15] --> decoded_text[20:21] '' --> ' '", - "insert text[16:16] --> decoded_text[22:23] '' --> ' '", - "replace text[20:21] --> decoded_text[27:28] 'が' --> 'か'", - "insert text[26:26] --> decoded_text[33:34] '' --> ' '", - "insert text[33:33] --> decoded_text[41:42] '' --> ' '", - "replace text[34:35] --> decoded_text[43:45] 'が' --> ' か'", - "insert text[36:36] --> decoded_text[46:47] '' --> ' '", - "insert text[37:37] --> decoded_text[48:49] '' --> ' '", - "insert text[38:38] --> decoded_text[50:51] '' --> ' '", - "insert text[41:41] --> decoded_text[54:55] '' --> ' '", - "insert text[42:42] --> decoded_text[56:57] '' --> ' '", - "insert text[43:43] --> decoded_text[58:59] '' --> ' '", - "insert text[45:45] --> decoded_text[61:62] '' --> ' '", - "insert text[46:46] --> decoded_text[63:64] '' --> ' '", - "insert text[47:47] --> decoded_text[65:66] '' --> ' '", - "insert text[54:54] --> decoded_text[73:74] '' --> ' '", - "insert text[55:55] --> decoded_text[75:76] '' --> ' '", - "insert text[56:56] --> decoded_text[77:78] '' --> ' '", - "insert text[57:57] --> decoded_text[79:80] '' --> ' '", - "insert text[63:63] --> decoded_text[86:87] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.078125, - "oov_charset": "[\"で\", \"デ\", \"が\"]" - }, - { - "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", - "decoded_text": "前 々から 走 ってみたかったんたけと 、 いつも 陸 上 部 らしき 学 生 さんかものすこいスヒートて 駆 け 抜 けていくのを 目 の 当 たりにしてちょっとヒヒっておりました", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[4:4] --> decoded_text[5:6] '' --> ' '", - "insert text[5:5] --> decoded_text[7:8] '' --> ' '", - "replace text[13:14] --> decoded_text[16:17] 'だ' --> 'た'", - "replace text[15:16] --> decoded_text[18:20] 'ど' --> 'と '", - "insert text[17:17] --> decoded_text[21:22] '' --> ' '", - "insert text[20:20] --> decoded_text[25:26] '' --> ' '", - "insert text[21:21] --> decoded_text[27:28] '' --> ' '", - "insert text[22:22] --> decoded_text[29:30] '' --> ' '", - "insert text[23:23] --> decoded_text[31:32] '' --> ' '", - "insert text[26:26] --> decoded_text[35:36] '' --> ' '", - "insert text[27:27] --> decoded_text[37:38] '' --> ' '", - "insert text[28:28] --> decoded_text[39:40] '' --> ' '", - "replace text[30:31] --> decoded_text[42:43] 'が' --> 'か'", - "replace text[34:35] --> decoded_text[46:47] 'ご' --> 'こ'", - "replace text[37:38] --> decoded_text[49:50] 'ピ' --> 'ヒ'", - "replace text[39:41] --> decoded_text[51:54] 'ドで' --> 'トて '", - "insert text[42:42] --> decoded_text[55:56] '' --> ' '", - "insert text[43:43] --> decoded_text[57:58] '' --> ' '", - "insert text[44:44] --> decoded_text[59:60] '' --> ' '", - "insert text[50:50] --> decoded_text[66:67] '' --> ' '", - "insert text[51:51] --> decoded_text[68:69] '' --> ' '", - "insert text[52:52] --> decoded_text[70:71] '' --> ' '", - "insert text[53:53] --> decoded_text[72:73] '' --> ' '", - "replace text[62:64] --> decoded_text[82:84] 'ビビ' --> 'ヒヒ'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.1267605633802817, - "oov_charset": "[\"だ\", \"ど\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"ビ\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午 後 から 雨 か 心 配 たったのて 遠 出 はせす 、 『 ふれあいロート 』 を 走 って 来 ました !", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:6] --> decoded_text[8:11] 'が' --> ' か '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "replace text[8:9] --> decoded_text[14:16] 'だ' --> ' た'", + "replace text[12:13] --> decoded_text[19:21] 'で' --> 'て '", + "insert text[14:14] --> decoded_text[22:23] '' --> ' '", + "insert text[15:15] --> decoded_text[24:25] '' --> ' '", + "replace text[17:18] --> decoded_text[27:29] 'ず' --> 'す '", + "insert text[19:19] --> decoded_text[30:31] '' --> ' '", + "insert text[20:20] --> decoded_text[32:33] '' --> ' '", + "replace text[26:27] --> decoded_text[39:41] 'ド' --> 'ト '", + "insert text[28:28] --> decoded_text[42:43] '' --> ' '", + "insert text[29:29] --> decoded_text[44:45] '' --> ' '", + "insert text[30:30] --> decoded_text[46:47] '' --> ' '", + "insert text[32:32] --> decoded_text[49:50] '' --> ' '", + "insert text[33:33] --> decoded_text[51:52] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.13513513513513514, + "oov_charset": "[\"が\", \"だ\", \"で\", \"ず\", \"ド\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "確 実 に 春 か 近 ついてることを 肌 て 感 しることか 出 来 ました 着 々と 整 備 されてる 圏 央 道 を 越 えるとお 世 話 になってるホウリンク 場 か 見 えて 来 ました 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] 'が' --> ' か '", + "replace text[6:7] --> decoded_text[11:13] 'づ' --> ' つ'", + "insert text[13:13] --> decoded_text[19:20] '' --> ' '", + "replace text[14:15] --> decoded_text[21:24] 'で' --> ' て '", + "replace text[16:17] --> decoded_text[25:27] 'じ' --> ' し'", + "replace text[20:21] --> decoded_text[30:32] 'が' --> 'か '", + "insert text[22:22] --> decoded_text[33:34] '' --> ' '", + "insert text[23:23] --> decoded_text[35:36] '' --> ' '", + "insert text[28:28] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[44:45] '' --> ' '", + "insert text[31:31] --> decoded_text[46:47] '' --> ' '", + "insert text[32:32] --> decoded_text[48:49] '' --> ' '", + "insert text[36:36] --> decoded_text[53:54] '' --> ' '", + "insert text[37:37] --> decoded_text[55:56] '' --> ' '", + "insert text[38:38] --> decoded_text[57:58] '' --> ' '", + "insert text[39:39] --> decoded_text[59:60] '' --> ' '", + "insert text[40:40] --> decoded_text[61:62] '' --> ' '", + "insert text[41:41] --> decoded_text[63:64] '' --> ' '", + "insert text[45:45] --> decoded_text[68:69] '' --> ' '", + "insert text[46:46] --> decoded_text[70:71] '' --> ' '", + "insert text[47:47] --> decoded_text[72:73] '' --> ' '", + "replace text[52:53] --> decoded_text[78:79] 'ボ' --> 'ホ'", + "replace text[56:57] --> decoded_text[82:84] 'グ' --> 'ク '", + "replace text[58:59] --> decoded_text[85:88] 'が' --> ' か '", + "insert text[60:60] --> decoded_text[89:90] '' --> ' '", + "insert text[62:62] --> decoded_text[92:93] '' --> ' '", + "insert text[63:63] --> decoded_text[94:95] '' --> ' '", + "insert text[66:66] --> decoded_text[98:99] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.11940298507462686, + "oov_charset": "[\"が\", \"づ\", \"で\", \"じ\", \"ボ\", \"グ\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] 〜 〜 、 私 か 途 中 てトイレに 行 きたくなってしまい 、 通 り 道 にあったケンタに 変 更 しちゃいました 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '", + "insert text[3:3] --> decoded_text[7:8] '' --> ' '", + "insert text[4:4] --> decoded_text[9:10] '' --> ' '", + "insert text[5:5] --> decoded_text[11:12] '' --> ' '", + "replace text[6:7] --> decoded_text[13:16] 'が' --> ' か '", + "insert text[8:8] --> decoded_text[17:18] '' --> ' '", + "replace text[9:10] --> decoded_text[19:21] 'で' --> ' て'", + "insert text[14:14] --> decoded_text[25:26] '' --> ' '", + "insert text[15:15] --> decoded_text[27:28] '' --> ' '", + "insert text[24:24] --> decoded_text[37:38] '' --> ' '", + "insert text[25:25] --> decoded_text[39:40] '' --> ' '", + "insert text[26:26] --> decoded_text[41:42] '' --> ' '", + "insert text[27:27] --> decoded_text[43:44] '' --> ' '", + "insert text[28:28] --> decoded_text[45:46] '' --> ' '", + "insert text[36:36] --> decoded_text[54:55] '' --> ' '", + "insert text[37:37] --> decoded_text[56:57] '' --> ' '", + "insert text[38:38] --> decoded_text[58:59] '' --> ' '", + "insert text[45:45] --> decoded_text[66:67] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.06521739130434782, + "oov_charset": "[\"ぅ\", \"が\", \"で\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実 は 、 1 年 程 前 にエルモサの 右 目 の 黒 目 の 端 によ 〜 く 見 ないと 分 からない 程 の 小 さな 斑 を 見 つけてたんてす 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[13:13] --> decoded_text[20:21] '' --> ' '", + "insert text[14:14] --> decoded_text[22:23] '' --> ' '", + "insert text[15:15] --> decoded_text[24:25] '' --> ' '", + "insert text[16:16] --> decoded_text[26:27] '' --> ' '", + "insert text[17:17] --> decoded_text[28:29] '' --> ' '", + "insert text[18:18] --> decoded_text[30:31] '' --> ' '", + "insert text[19:19] --> decoded_text[32:33] '' --> ' '", + "insert text[20:20] --> decoded_text[34:35] '' --> ' '", + "insert text[22:22] --> decoded_text[37:38] '' --> ' '", + "insert text[23:23] --> decoded_text[39:40] '' --> ' '", + "insert text[24:24] --> decoded_text[41:42] '' --> ' '", + "insert text[25:25] --> decoded_text[43:44] '' --> ' '", + "insert text[28:28] --> decoded_text[47:48] '' --> ' '", + "insert text[29:29] --> decoded_text[49:50] '' --> ' '", + "insert text[33:33] --> decoded_text[54:55] '' --> ' '", + "insert text[34:34] --> decoded_text[56:57] '' --> ' '", + "insert text[35:35] --> decoded_text[58:59] '' --> ' '", + "insert text[36:36] --> decoded_text[60:61] '' --> ' '", + "insert text[38:38] --> decoded_text[63:64] '' --> ' '", + "insert text[39:39] --> decoded_text[65:66] '' --> ' '", + "insert text[40:40] --> decoded_text[67:68] '' --> ' '", + "insert text[41:41] --> decoded_text[69:70] '' --> ' '", + "replace text[46:47] --> decoded_text[75:76] 'で' --> 'て'", + "insert text[48:48] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"で\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その 時 点 て 先 生 からはおそらく 『 角 膜 シストロフィー 』 てあろうとの 診 断 をもらっていました 。", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> ' '", + "insert text[3:3] --> decoded_text[4:5] '' --> ' '", + "replace text[4:5] --> decoded_text[6:9] 'で' --> ' て '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[14:14] --> decoded_text[20:21] '' --> ' '", + "insert text[15:15] --> decoded_text[22:23] '' --> ' '", + "insert text[16:16] --> decoded_text[24:25] '' --> ' '", + "replace text[17:18] --> decoded_text[26:28] 'ジ' --> ' シ'", + "insert text[24:24] --> decoded_text[34:35] '' --> ' '", + "replace text[25:26] --> decoded_text[36:38] 'で' --> ' て'", + "insert text[31:31] --> decoded_text[43:44] '' --> ' '", + "insert text[32:32] --> decoded_text[45:46] '' --> ' '", + "insert text[33:33] --> decoded_text[47:48] '' --> ' '", + "insert text[42:42] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.06976744186046512, + "oov_charset": "[\"で\", \"ジ\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "エルモサの 場 合 は1 年 程 経 過 して 徐 々にてはあるんてすけと 、 少 し 大 きくなってきちゃいました", + "diff": [ + "insert text[5:5] --> decoded_text[5:6] '' --> ' '", + "insert text[6:6] --> decoded_text[7:8] '' --> ' '", + "insert text[7:7] --> decoded_text[9:10] '' --> ' '", + "insert text[9:9] --> decoded_text[12:13] '' --> ' '", + "insert text[10:10] --> decoded_text[14:15] '' --> ' '", + "insert text[11:11] --> decoded_text[16:17] '' --> ' '", + "insert text[12:12] --> decoded_text[18:19] '' --> ' '", + "insert text[13:13] --> decoded_text[20:21] '' --> ' '", + "insert text[15:15] --> decoded_text[23:24] '' --> ' '", + "insert text[16:16] --> decoded_text[25:26] '' --> ' '", + "replace text[18:19] --> decoded_text[28:29] 'で' --> 'て'", + "replace text[23:24] --> decoded_text[33:34] 'で' --> 'て'", + "replace text[26:27] --> decoded_text[36:38] 'ど' --> 'と '", + "insert text[28:28] --> decoded_text[39:40] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.06976744186046512, + "oov_charset": "[\"で\", \"ど\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "たた 、 これまてお 散 歩 仲 間 からは 指 摘 とかされたことはないのて 、 こちらから 言 わなけれはそんなに 目 立 つ 程 てはないんてすけとね 。", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '", + "insert text[3:3] --> decoded_text[4:5] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'", + "insert text[8:8] --> decoded_text[10:11] '' --> ' '", + "insert text[9:9] --> decoded_text[12:13] '' --> ' '", + "insert text[10:10] --> decoded_text[14:15] '' --> ' '", + "insert text[11:11] --> decoded_text[16:17] '' --> ' '", + "insert text[12:12] --> decoded_text[18:19] '' --> ' '", + "insert text[15:15] --> decoded_text[22:23] '' --> ' '", + "insert text[16:16] --> decoded_text[24:25] '' --> ' '", + "insert text[17:17] --> decoded_text[26:27] '' --> ' '", + "replace text[28:29] --> decoded_text[38:40] 'で' --> 'て '", + "insert text[30:30] --> decoded_text[41:42] '' --> ' '", + "insert text[35:35] --> decoded_text[47:48] '' --> ' '", + "insert text[36:36] --> decoded_text[49:50] '' --> ' '", + "replace text[40:41] --> decoded_text[54:55] 'ば' --> 'は'", + "insert text[45:45] --> decoded_text[59:60] '' --> ' '", + "insert text[46:46] --> decoded_text[61:62] '' --> ' '", + "insert text[47:47] --> decoded_text[63:64] '' --> ' '", + "insert text[48:48] --> decoded_text[65:66] '' --> ' '", + "replace text[49:50] --> decoded_text[67:69] 'で' --> ' て'", + "replace text[54:55] --> decoded_text[73:74] 'で' --> 'て'", + "replace text[57:58] --> decoded_text[76:77] 'ど' --> 'と'", + "insert text[59:59] --> decoded_text[78:79] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.11666666666666667, + "oov_charset": "[\"だ\", \"で\", \"ば\", \"ど\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔 はヒアルロン 酸 の 目 薬 なとも 処 方 されてたようてすか 、 これか 効 く 事 はないそうてす 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[7:7] --> decoded_text[8:9] '' --> ' '", + "insert text[8:8] --> decoded_text[10:11] '' --> ' '", + "insert text[9:9] --> decoded_text[12:13] '' --> ' '", + "insert text[10:10] --> decoded_text[14:15] '' --> ' '", + "insert text[11:11] --> decoded_text[16:17] '' --> ' '", + "replace text[12:13] --> decoded_text[18:19] 'ど' --> 'と'", + "insert text[14:14] --> decoded_text[20:21] '' --> ' '", + "insert text[15:15] --> decoded_text[22:23] '' --> ' '", + "insert text[16:16] --> decoded_text[24:25] '' --> ' '", + "replace text[22:23] --> decoded_text[31:32] 'で' --> 'て'", + "replace text[24:25] --> decoded_text[33:35] 'が' --> 'か '", + "insert text[26:26] --> decoded_text[36:37] '' --> ' '", + "replace text[28:29] --> decoded_text[39:41] 'が' --> 'か '", + "insert text[30:30] --> decoded_text[42:43] '' --> ' '", + "insert text[31:31] --> decoded_text[44:45] '' --> ' '", + "insert text[32:32] --> decoded_text[46:47] '' --> ' '", + "replace text[37:38] --> decoded_text[52:53] 'で' --> 'て'", + "insert text[39:39] --> decoded_text[54:55] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.125, + "oov_charset": "[\"ど\", \"で\", \"が\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なのて 、 エルティとのお 散 歩 ても 訪 れたことかありません 。 カタクリの 花 か5 分 咲 きとの 情 報 から 今 回 コースの1つに 取 り 入 れてみました 。", + "diff": [ + "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "insert text[12:12] --> decoded_text[15:16] '' --> ' '", + "replace text[13:14] --> decoded_text[17:19] 'で' --> ' て'", + "insert text[15:15] --> decoded_text[20:21] '' --> ' '", + "insert text[16:16] --> decoded_text[22:23] '' --> ' '", + "replace text[20:21] --> decoded_text[27:28] 'が' --> 'か'", + "insert text[26:26] --> decoded_text[33:34] '' --> ' '", + "insert text[33:33] --> decoded_text[41:42] '' --> ' '", + "replace text[34:35] --> decoded_text[43:45] 'が' --> ' か'", + "insert text[36:36] --> decoded_text[46:47] '' --> ' '", + "insert text[37:37] --> decoded_text[48:49] '' --> ' '", + "insert text[38:38] --> decoded_text[50:51] '' --> ' '", + "insert text[41:41] --> decoded_text[54:55] '' --> ' '", + "insert text[42:42] --> decoded_text[56:57] '' --> ' '", + "insert text[43:43] --> decoded_text[58:59] '' --> ' '", + "insert text[45:45] --> decoded_text[61:62] '' --> ' '", + "insert text[46:46] --> decoded_text[63:64] '' --> ' '", + "insert text[47:47] --> decoded_text[65:66] '' --> ' '", + "insert text[54:54] --> decoded_text[73:74] '' --> ' '", + "insert text[55:55] --> decoded_text[75:76] '' --> ' '", + "insert text[56:56] --> decoded_text[77:78] '' --> ' '", + "insert text[57:57] --> decoded_text[79:80] '' --> ' '", + "insert text[63:63] --> decoded_text[86:87] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.078125, + "oov_charset": "[\"で\", \"デ\", \"が\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前 々から 走 ってみたかったんたけと 、 いつも 陸 上 部 らしき 学 生 さんかものすこいスヒートて 駆 け 抜 けていくのを 目 の 当 たりにしてちょっとヒヒっておりました", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "insert text[5:5] --> decoded_text[7:8] '' --> ' '", + "replace text[13:14] --> decoded_text[16:17] 'だ' --> 'た'", + "replace text[15:16] --> decoded_text[18:20] 'ど' --> 'と '", + "insert text[17:17] --> decoded_text[21:22] '' --> ' '", + "insert text[20:20] --> decoded_text[25:26] '' --> ' '", + "insert text[21:21] --> decoded_text[27:28] '' --> ' '", + "insert text[22:22] --> decoded_text[29:30] '' --> ' '", + "insert text[23:23] --> decoded_text[31:32] '' --> ' '", + "insert text[26:26] --> decoded_text[35:36] '' --> ' '", + "insert text[27:27] --> decoded_text[37:38] '' --> ' '", + "insert text[28:28] --> decoded_text[39:40] '' --> ' '", + "replace text[30:31] --> decoded_text[42:43] 'が' --> 'か'", + "replace text[34:35] --> decoded_text[46:47] 'ご' --> 'こ'", + "replace text[37:38] --> decoded_text[49:50] 'ピ' --> 'ヒ'", + "replace text[39:41] --> decoded_text[51:54] 'ドで' --> 'トて '", + "insert text[42:42] --> decoded_text[55:56] '' --> ' '", + "insert text[43:43] --> decoded_text[57:58] '' --> ' '", + "insert text[44:44] --> decoded_text[59:60] '' --> ' '", + "insert text[50:50] --> decoded_text[66:67] '' --> ' '", + "insert text[51:51] --> decoded_text[68:69] '' --> ' '", + "insert text[52:52] --> decoded_text[70:71] '' --> ' '", + "insert text[53:53] --> decoded_text[72:73] '' --> ' '", + "replace text[62:64] --> decoded_text[82:84] 'ビビ' --> 'ヒヒ'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.1267605633802817, + "oov_charset": "[\"だ\", \"ど\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"ビ\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json index b71beabbe76949d6f3cfa30a049c0abfc9d0a541..b7be1662004e70159804039b3390797c7f6cfc12 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json @@ -1,230 +1,230 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ home > 라이브스코어", - "diff": [ - "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", - "replace text[9:15] --> decoded_text[9:21] '라이브스코어' --> '라이브스코어'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.6666666666666666, - "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'", - "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "insert text[9:9] --> decoded_text[15:16] '' --> ' '", - "replace text[11:12] --> decoded_text[18:21] '번' --> '번'", - "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'", - "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'", - "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'", - "replace text[25:33] --> decoded_text[46:65] '황금의제국카지노' --> '황금의제국카지노'", - "replace text[34:39] --> decoded_text[66:79] '홀아웃했다' --> '홀아웃했다'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "1편인'신과함께 - 죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "diff": [ - "replace text[1:3] --> decoded_text[1:7] '편인' --> '편인'", - "replace text[4:8] --> decoded_text[8:19] '신과함께' --> '신과함께 '", - "delete text[9:11] --> decoded_text[20:20] '죄와' --> ''", - "replace text[12:13] --> decoded_text[21:29] '벌' --> '죄와 벌'", - "replace text[14:15] --> decoded_text[30:32] '이' --> '이'", - "replace text[16:19] --> decoded_text[33:42] '천만을' --> '천만을'", - "replace text[20:22] --> decoded_text[43:49] '넘은' --> '넘은'", - "replace text[23:25] --> decoded_text[50:56] '만큼' --> '만큼'", - "replace text[27:29] --> decoded_text[58:64] '편을' --> '편을'", - "replace text[30:33] --> decoded_text[65:72] '기다린' --> '기다린'", - "replace text[34:42] --> decoded_text[73:92] '황금의제국카지노' --> '황금의제국카지노'", - "replace text[43:47] --> decoded_text[93:104] '관객들의' --> '관객들의'", - "replace text[48:51] --> decoded_text[105:111] '기대와' --> '기대와'", - "replace text[52:54] --> decoded_text[112:116] '주소' --> '주소'", - "replace text[55:58] --> decoded_text[117:126] '관심은' --> '관심은'", - "replace text[59:64] --> decoded_text[127:140] '폭발적이다' --> '폭발적이다'" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": "고려해서 주소'대체재 일색'의 분재를 [UNK] [UNK] 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "diff": [ - "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'", - "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"", - "insert text[8:8] --> decoded_text[21:27] '' --> '일색'", - "replace text[9:12] --> decoded_text[28:30] '대체재' --> '의'", - "replace text[13:17] --> decoded_text[31:39] \"일색'의\" --> '분재를'", - "replace text[18:21] --> decoded_text[40:45] '분재를' --> '[UNK]'", - "replace text[22:25] --> decoded_text[46:51] '내놓을' --> '[UNK]'", - "replace text[26:32] --> decoded_text[52:57] '위험이 있다' --> '있다'", - "replace text[34:37] --> decoded_text[59:67] '문학의' --> '문학의'", - "replace text[38:41] --> decoded_text[68:75] '자유를' --> '자유를'", - "replace text[42:46] --> decoded_text[76:85] '소설가가' --> '소설가가'", - "replace text[47:50] --> decoded_text[86:92] '스스로' --> '스스로'", - "replace text[51:59] --> decoded_text[93:112] '황금의제국카지노' --> '황금의제국카지노'", - "replace text[60:64] --> decoded_text[113:123] '출판사에' --> '출판사에'", - "replace text[65:69] --> decoded_text[124:135] '상납하는' --> '상납하는'", - "replace text[70:73] --> decoded_text[136:143] '것이다' --> '것이다'" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토 ( 22 ) 는 황금의제국카지노 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "replace text[0:6] --> decoded_text[0:14] '조시도널슨의' --> '조시도널슨의'", - "replace text[7:9] --> decoded_text[15:20] '유산' --> '유산'", - "replace text[10:14] --> decoded_text[21:32] '프랭클린' --> '프랭클린'", - "replace text[15:17] --> decoded_text[33:37] '주소' --> '주소'", - "replace text[18:21] --> decoded_text[38:45] '바레토' --> '바레토 '", - "insert text[22:22] --> decoded_text[46:47] '' --> ' '", - "insert text[24:24] --> decoded_text[49:50] '' --> ' '", - "delete text[25:26] --> decoded_text[51:51] '는' --> ''", - "replace text[27:35] --> decoded_text[52:75] '황금의제국카지노' --> '는 황금의제국카지노'", - "replace text[37:39] --> decoded_text[77:81] '타수' --> '타수'", - "replace text[40:42] --> decoded_text[82:88] '안타' --> '안타 '", - "insert text[43:43] --> decoded_text[89:90] '' --> ' '", - "replace text[44:46] --> decoded_text[91:95] '루타' --> '루타'", - "replace text[47:49] --> decoded_text[96:103] '홈런' --> '홈런 '", - "replace text[52:54] --> decoded_text[106:112] '타점' --> '타점 '", - "insert text[56:56] --> decoded_text[114:115] '' --> ' '", - "insert text[59:59] --> decoded_text[118:119] '' --> '.'", - "delete text[60:61] --> decoded_text[120:120] '.' --> ''", - "insert text[64:64] --> decoded_text[123:124] '' --> '.'", - "delete text[65:66] --> decoded_text[125:125] '.' --> ''", - "insert text[69:69] --> decoded_text[128:129] '' --> ' '", - "replace text[72:75] --> decoded_text[132:139] '하지만' --> '하지만'", - "replace text[76:79] --> decoded_text[140:148] '아직은' --> '아직은'", - "replace text[80:84] --> decoded_text[149:157] '트레이드' --> '트레이드'", - "replace text[85:88] --> decoded_text[158:165] '당시의' --> '당시의'", - "replace text[89:93] --> decoded_text[166:175] '기대치를' --> '기대치를'", - "replace text[94:98] --> decoded_text[176:184] '보여주지' --> '보여주지'", - "replace text[99:102] --> decoded_text[185:192] '못하고' --> '못하고'", - "replace text[103:105] --> decoded_text[193:198] '있다' --> '있다'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 해야 한다.", - "diff": [ - "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'", - "replace text[8:19] --> decoded_text[16:41] '팀이 준결승에 오른다' --> '팀이 준결승에 오른다'", - "replace text[21:33] --> decoded_text[43:62] '결국 A, B조 1위는' --> '결국 a, b조 [UNK]'", - "replace text[36:38] --> decoded_text[65:71] '강-' --> '강 - '", - "replace text[39:45] --> decoded_text[72:88] '강-결승으로' --> '강 - 결승으로'", - "replace text[47:84] --> decoded_text[90:153] '경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소' --> '경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소'", - "replace text[87:89] --> decoded_text[156:162] '강-' --> '강 - '", - "replace text[90:92] --> decoded_text[163:169] '강-' --> '강 - '", - "replace text[93:99] --> decoded_text[170:186] '강-결승으로' --> '강 - 결승으로'", - "replace text[101:110] --> decoded_text[188:207] '경기를 해야 한다' --> '경기를 해야 한다'" - ], - "n_oov_chars": 66, - "oov_ratio": 0.5945945945945946, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": "[UNK] 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 만들어주겠다며, 통화연결을 했다.", - "diff": [ - "replace text[0:30] --> decoded_text[0:60] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '[UNK] 눈길을 주소 끈 것은 한 신인배우의 매니저였다'", - "replace text[32:75] --> decoded_text[62:146] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 ' --> '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 [UNK] 사연에 박명수는'", - "replace text[76:86] --> decoded_text[147:170] '실시간 검색어 1위' --> '실시간 검색어 [UNK]'", - "replace text[87:96] --> decoded_text[171:192] '를 만들어주겠다며' --> '를 만들어주겠다며'", - "replace text[98:106] --> decoded_text[194:214] '통화연결을 했다' --> '통화연결을 했다'" - ], - "n_oov_chars": 78, - "oov_ratio": 0.7289719626168224, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 [UNK] 빅 사이닝 [UNK] 을 통해 유벤투스로 [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'", - "replace text[6:14] --> decoded_text[13:32] '황금의제국카지노' --> '황금의제국카지노'", - "replace text[15:17] --> decoded_text[33:38] '시즌' --> '시즌'", - "replace text[19:23] --> decoded_text[40:49] '호날두와' --> '호날두와'", - "replace text[24:28] --> decoded_text[50:59] '이과인이' --> '이과인이'", - "replace text[29:31] --> decoded_text[60:64] '다시' --> '다시'", - "replace text[32:34] --> decoded_text[65:69] '주소' --> '주소'", - "replace text[35:39] --> decoded_text[70:75] '한솥밥을' --> '[UNK]'", - "replace text[40:42] --> decoded_text[76:82] '먹는' --> '먹는'", - "replace text[43:45] --> decoded_text[83:88] '일이' --> '일이'", - "replace text[46:50] --> decoded_text[89:94] '성사됐다' --> '[UNK]'", - "replace text[52:56] --> decoded_text[96:105] '호날두가' --> '호날두가'", - "replace text[57:59] --> decoded_text[106:111] '‘빅' --> '[UNK]'", - "replace text[60:65] --> decoded_text[112:115] '사이닝’을' --> '빅'", - "replace text[66:68] --> decoded_text[116:123] '통해' --> '사이닝'", - "replace text[69:74] --> decoded_text[124:129] '유벤투스로' --> '[UNK]'", - "replace text[75:78] --> decoded_text[130:133] '옮겼기' --> '을'", - "replace text[79:83] --> decoded_text[134:163] '때문이다' --> '통해 유벤투스로 [UNK] [UNK]'" - ], - "n_oov_chars": 64, - "oov_ratio": 0.7619047619047619, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": "현대캐피탈은삼성화재와 시범경기를 [UNK] 홍천에 황금의제국카지노 주소 왔다.", - "diff": [ - "replace text[0:11] --> decoded_text[0:27] '현대캐피탈은삼성화재와' --> '현대캐피탈은삼성화재와'", - "replace text[12:17] --> decoded_text[28:41] '시범경기를' --> '시범경기를'", - "replace text[18:20] --> decoded_text[42:47] '위해' --> '[UNK]'", - "replace text[21:24] --> decoded_text[48:56] '홍천에' --> '홍천에'", - "replace text[25:33] --> decoded_text[57:76] '황금의제국카지노' --> '황금의제국카지노'", - "replace text[34:36] --> decoded_text[77:81] '주소' --> '주소'", - "replace text[37:39] --> decoded_text[82:87] '왔다' --> '왔다'" - ], - "n_oov_chars": 33, - "oov_ratio": 0.825, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": "사실자매가 나란히 [UNK] 인터뷰를 한다는 게 [UNK] 법도 한데, 주소 둘 사이에는 [UNK] 거리낌도 [UNK]. 마치 하루에 한 [UNK] 만나는 친구 [UNK] 느낌이 황금의제국카지노 강했다.", - "diff": [ - "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'", - "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'", - "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'", - "replace text[13:17] --> decoded_text[26:36] '인터뷰를' --> '인터뷰를'", - "replace text[18:21] --> decoded_text[37:45] '한다는' --> '한다는'", - "replace text[22:23] --> decoded_text[46:48] '게' --> '게'", - "replace text[24:28] --> decoded_text[49:54] '쑥스러울' --> '[UNK]'", - "replace text[29:31] --> decoded_text[55:60] '법도' --> '법도'", - "replace text[32:34] --> decoded_text[61:66] '한데' --> '한데'", - "replace text[36:38] --> decoded_text[68:72] '주소' --> '주소'", - "replace text[39:40] --> decoded_text[73:76] '둘' --> '둘'", - "replace text[41:45] --> decoded_text[77:86] '사이에는' --> '사이에는'", - "replace text[46:48] --> decoded_text[87:92] '어떤' --> '[UNK]'", - "replace text[49:53] --> decoded_text[93:102] '거리낌도' --> '거리낌도'", - "replace text[54:57] --> decoded_text[103:108] '없었다' --> '[UNK]'", - "replace text[59:61] --> decoded_text[110:114] '마치' --> '마치'", - "replace text[62:65] --> decoded_text[115:121] '하루에' --> '하루에'", - "replace text[66:67] --> decoded_text[122:125] '한' --> '한'", - "replace text[68:70] --> decoded_text[126:131] '번씩' --> '[UNK]'", - "replace text[71:74] --> decoded_text[132:140] '만나는' --> '만나는'", - "replace text[75:77] --> decoded_text[141:146] '친구' --> '친구'", - "replace text[78:80] --> decoded_text[147:152] '같은' --> '[UNK]'", - "replace text[81:84] --> decoded_text[153:160] '느낌이' --> '느낌이'", - "replace text[85:93] --> decoded_text[161:180] '황금의제국카지노' --> '황금의제국카지노'", - "replace text[94:97] --> decoded_text[181:189] '강했다' --> '강했다'" - ], - "n_oov_chars": 71, - "oov_ratio": 0.7244897959183674, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > 라이브스코어", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:21] '라이브스코어' --> '라이브스코어'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'", + "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "insert text[9:9] --> decoded_text[15:16] '' --> ' '", + "replace text[11:12] --> decoded_text[18:21] '번' --> '번'", + "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'", + "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'", + "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'", + "replace text[25:33] --> decoded_text[46:65] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[34:39] --> decoded_text[66:79] '홀아웃했다' --> '홀아웃했다'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1편인'신과함께 - 죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '편인' --> '편인'", + "replace text[4:8] --> decoded_text[8:19] '신과함께' --> '신과함께 '", + "delete text[9:11] --> decoded_text[20:20] '죄와' --> ''", + "replace text[12:13] --> decoded_text[21:29] '벌' --> '죄와 벌'", + "replace text[14:15] --> decoded_text[30:32] '이' --> '이'", + "replace text[16:19] --> decoded_text[33:42] '천만을' --> '천만을'", + "replace text[20:22] --> decoded_text[43:49] '넘은' --> '넘은'", + "replace text[23:25] --> decoded_text[50:56] '만큼' --> '만큼'", + "replace text[27:29] --> decoded_text[58:64] '편을' --> '편을'", + "replace text[30:33] --> decoded_text[65:72] '기다린' --> '기다린'", + "replace text[34:42] --> decoded_text[73:92] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[43:47] --> decoded_text[93:104] '관객들의' --> '관객들의'", + "replace text[48:51] --> decoded_text[105:111] '기대와' --> '기대와'", + "replace text[52:54] --> decoded_text[112:116] '주소' --> '주소'", + "replace text[55:58] --> decoded_text[117:126] '관심은' --> '관심은'", + "replace text[59:64] --> decoded_text[127:140] '폭발적이다' --> '폭발적이다'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "고려해서 주소'대체재 일색'의 분재를 [UNK] [UNK] 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "diff": [ + "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'", + "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"", + "insert text[8:8] --> decoded_text[21:27] '' --> '일색'", + "replace text[9:12] --> decoded_text[28:30] '대체재' --> '의'", + "replace text[13:17] --> decoded_text[31:39] \"일색'의\" --> '분재를'", + "replace text[18:21] --> decoded_text[40:45] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[46:51] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[52:57] '위험이 있다' --> '있다'", + "replace text[34:37] --> decoded_text[59:67] '문학의' --> '문학의'", + "replace text[38:41] --> decoded_text[68:75] '자유를' --> '자유를'", + "replace text[42:46] --> decoded_text[76:85] '소설가가' --> '소설가가'", + "replace text[47:50] --> decoded_text[86:92] '스스로' --> '스스로'", + "replace text[51:59] --> decoded_text[93:112] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[60:64] --> decoded_text[113:123] '출판사에' --> '출판사에'", + "replace text[65:69] --> decoded_text[124:135] '상납하는' --> '상납하는'", + "replace text[70:73] --> decoded_text[136:143] '것이다' --> '것이다'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토 ( 22 ) 는 황금의제국카지노 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "replace text[0:6] --> decoded_text[0:14] '조시도널슨의' --> '조시도널슨의'", + "replace text[7:9] --> decoded_text[15:20] '유산' --> '유산'", + "replace text[10:14] --> decoded_text[21:32] '프랭클린' --> '프랭클린'", + "replace text[15:17] --> decoded_text[33:37] '주소' --> '주소'", + "replace text[18:21] --> decoded_text[38:45] '바레토' --> '바레토 '", + "insert text[22:22] --> decoded_text[46:47] '' --> ' '", + "insert text[24:24] --> decoded_text[49:50] '' --> ' '", + "delete text[25:26] --> decoded_text[51:51] '는' --> ''", + "replace text[27:35] --> decoded_text[52:75] '황금의제국카지노' --> '는 황금의제국카지노'", + "replace text[37:39] --> decoded_text[77:81] '타수' --> '타수'", + "replace text[40:42] --> decoded_text[82:88] '안타' --> '안타 '", + "insert text[43:43] --> decoded_text[89:90] '' --> ' '", + "replace text[44:46] --> decoded_text[91:95] '루타' --> '루타'", + "replace text[47:49] --> decoded_text[96:103] '홈런' --> '홈런 '", + "replace text[52:54] --> decoded_text[106:112] '타점' --> '타점 '", + "insert text[56:56] --> decoded_text[114:115] '' --> ' '", + "insert text[59:59] --> decoded_text[118:119] '' --> '.'", + "delete text[60:61] --> decoded_text[120:120] '.' --> ''", + "insert text[64:64] --> decoded_text[123:124] '' --> '.'", + "delete text[65:66] --> decoded_text[125:125] '.' --> ''", + "insert text[69:69] --> decoded_text[128:129] '' --> ' '", + "replace text[72:75] --> decoded_text[132:139] '하지만' --> '하지만'", + "replace text[76:79] --> decoded_text[140:148] '아직은' --> '아직은'", + "replace text[80:84] --> decoded_text[149:157] '트레이드' --> '트레이드'", + "replace text[85:88] --> decoded_text[158:165] '당시의' --> '당시의'", + "replace text[89:93] --> decoded_text[166:175] '기대치를' --> '기대치를'", + "replace text[94:98] --> decoded_text[176:184] '보여주지' --> '보여주지'", + "replace text[99:102] --> decoded_text[185:192] '못하고' --> '못하고'", + "replace text[103:105] --> decoded_text[193:198] '있다' --> '있다'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 해야 한다.", + "diff": [ + "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'", + "replace text[8:19] --> decoded_text[16:41] '팀이 준결승에 오른다' --> '팀이 준결승에 오른다'", + "replace text[21:33] --> decoded_text[43:62] '결국 A, B조 1위는' --> '결국 a, b조 [UNK]'", + "replace text[36:38] --> decoded_text[65:71] '강-' --> '강 - '", + "replace text[39:45] --> decoded_text[72:88] '강-결승으로' --> '강 - 결승으로'", + "replace text[47:84] --> decoded_text[90:153] '경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소' --> '경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소'", + "replace text[87:89] --> decoded_text[156:162] '강-' --> '강 - '", + "replace text[90:92] --> decoded_text[163:169] '강-' --> '강 - '", + "replace text[93:99] --> decoded_text[170:186] '강-결승으로' --> '강 - 결승으로'", + "replace text[101:110] --> decoded_text[188:207] '경기를 해야 한다' --> '경기를 해야 한다'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 만들어주겠다며, 통화연결을 했다.", + "diff": [ + "replace text[0:30] --> decoded_text[0:60] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '[UNK] 눈길을 주소 끈 것은 한 신인배우의 매니저였다'", + "replace text[32:75] --> decoded_text[62:146] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 ' --> '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 [UNK] 사연에 박명수는'", + "replace text[76:86] --> decoded_text[147:170] '실시간 검색어 1위' --> '실시간 검색어 [UNK]'", + "replace text[87:96] --> decoded_text[171:192] '를 만들어주겠다며' --> '를 만들어주겠다며'", + "replace text[98:106] --> decoded_text[194:214] '통화연결을 했다' --> '통화연결을 했다'" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 [UNK] 빅 사이닝 [UNK] 을 통해 유벤투스로 [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'", + "replace text[6:14] --> decoded_text[13:32] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[15:17] --> decoded_text[33:38] '시즌' --> '시즌'", + "replace text[19:23] --> decoded_text[40:49] '호날두와' --> '호날두와'", + "replace text[24:28] --> decoded_text[50:59] '이과인이' --> '이과인이'", + "replace text[29:31] --> decoded_text[60:64] '다시' --> '다시'", + "replace text[32:34] --> decoded_text[65:69] '주소' --> '주소'", + "replace text[35:39] --> decoded_text[70:75] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[76:82] '먹는' --> '먹는'", + "replace text[43:45] --> decoded_text[83:88] '일이' --> '일이'", + "replace text[46:50] --> decoded_text[89:94] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[96:105] '호날두가' --> '호날두가'", + "replace text[57:59] --> decoded_text[106:111] '‘빅' --> '[UNK]'", + "replace text[60:65] --> decoded_text[112:115] '사이닝’을' --> '빅'", + "replace text[66:68] --> decoded_text[116:123] '통해' --> '사이닝'", + "replace text[69:74] --> decoded_text[124:129] '유벤투스로' --> '[UNK]'", + "replace text[75:78] --> decoded_text[130:133] '옮겼기' --> '을'", + "replace text[79:83] --> decoded_text[134:163] '때문이다' --> '통해 유벤투스로 [UNK] [UNK]'" + ], + "n_oov_chars": 64, + "oov_ratio": 0.7619047619047619, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "현대캐피탈은삼성화재와 시범경기를 [UNK] 홍천에 황금의제국카지노 주소 왔다.", + "diff": [ + "replace text[0:11] --> decoded_text[0:27] '현대캐피탈은삼성화재와' --> '현대캐피탈은삼성화재와'", + "replace text[12:17] --> decoded_text[28:41] '시범경기를' --> '시범경기를'", + "replace text[18:20] --> decoded_text[42:47] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[48:56] '홍천에' --> '홍천에'", + "replace text[25:33] --> decoded_text[57:76] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[34:36] --> decoded_text[77:81] '주소' --> '주소'", + "replace text[37:39] --> decoded_text[82:87] '왔다' --> '왔다'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "사실자매가 나란히 [UNK] 인터뷰를 한다는 게 [UNK] 법도 한데, 주소 둘 사이에는 [UNK] 거리낌도 [UNK]. 마치 하루에 한 [UNK] 만나는 친구 [UNK] 느낌이 황금의제국카지노 강했다.", + "diff": [ + "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'", + "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'", + "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[26:36] '인터뷰를' --> '인터뷰를'", + "replace text[18:21] --> decoded_text[37:45] '한다는' --> '한다는'", + "replace text[22:23] --> decoded_text[46:48] '게' --> '게'", + "replace text[24:28] --> decoded_text[49:54] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[55:60] '법도' --> '법도'", + "replace text[32:34] --> decoded_text[61:66] '한데' --> '한데'", + "replace text[36:38] --> decoded_text[68:72] '주소' --> '주소'", + "replace text[39:40] --> decoded_text[73:76] '둘' --> '둘'", + "replace text[41:45] --> decoded_text[77:86] '사이에는' --> '사이에는'", + "replace text[46:48] --> decoded_text[87:92] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[93:102] '거리낌도' --> '거리낌도'", + "replace text[54:57] --> decoded_text[103:108] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[110:114] '마치' --> '마치'", + "replace text[62:65] --> decoded_text[115:121] '하루에' --> '하루에'", + "replace text[66:67] --> decoded_text[122:125] '한' --> '한'", + "replace text[68:70] --> decoded_text[126:131] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[132:140] '만나는' --> '만나는'", + "replace text[75:77] --> decoded_text[141:146] '친구' --> '친구'", + "replace text[78:80] --> decoded_text[147:152] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[153:160] '느낌이' --> '느낌이'", + "replace text[85:93] --> decoded_text[161:180] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[94:97] --> decoded_text[181:189] '강했다' --> '강했다'" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json index 7e714033a0cc358131096cad35cb5f96f3b975c6..3a9e4c0b2d347fab2a3bfaafec28ae435647955b 100644 --- a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json @@ -1,1118 +1,1118 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[26:26] --> decoded_text[37:38] '' --> ' '", - "insert text[29:29] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[43:44] '' --> ' '", - "insert text[31:31] --> decoded_text[45:46] '' --> ' '", - "insert text[32:32] --> decoded_text[47:48] '' --> ' '", - "insert text[33:33] --> decoded_text[49:50] '' --> ' '", - "insert text[34:34] --> decoded_text[51:52] '' --> ' '", - "insert text[35:35] --> decoded_text[53:54] '' --> ' '", - "insert text[36:36] --> decoded_text[55:56] '' --> ' '", - "insert text[37:37] --> decoded_text[57:58] '' --> ' '", - "insert text[41:41] --> decoded_text[62:63] '' --> ' '", - "insert text[42:42] --> decoded_text[64:65] '' --> ' '", - "insert text[43:43] --> decoded_text[66:67] '' --> ' '", - "insert text[44:44] --> decoded_text[68:69] '' --> ' '", - "insert text[45:45] --> decoded_text[70:71] '' --> ' '", - "insert text[46:46] --> decoded_text[72:73] '' --> ' '", - "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", - "insert text[49:49] --> decoded_text[78:79] '' --> ' '", - "insert text[50:50] --> decoded_text[80:81] '' --> ' '", - "insert text[51:51] --> decoded_text[82:83] '' --> ' '", - "insert text[52:52] --> decoded_text[84:85] '' --> ' '", - "insert text[53:53] --> decoded_text[86:87] '' --> ' '", - "insert text[54:54] --> decoded_text[88:89] '' --> ' '", - "insert text[55:55] --> decoded_text[90:91] '' --> ' '", - "insert text[56:56] --> decoded_text[92:93] '' --> ' '", - "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", - "insert text[59:59] --> decoded_text[98:99] '' --> ' '", - "insert text[60:60] --> decoded_text[100:101] '' --> ' '", - "insert text[61:61] --> decoded_text[102:103] '' --> ' '", - "insert text[62:62] --> decoded_text[104:105] '' --> ' '", - "insert text[63:63] --> decoded_text[106:107] '' --> ' '", - "insert text[64:64] --> decoded_text[108:109] '' --> ' '", - "insert text[65:65] --> decoded_text[110:111] '' --> ' '", - "insert text[66:66] --> decoded_text[112:113] '' --> ' '", - "insert text[67:67] --> decoded_text[114:115] '' --> ' '", - "insert text[68:68] --> decoded_text[116:117] '' --> ' '", - "insert text[69:69] --> decoded_text[118:119] '' --> ' '", - "insert text[70:70] --> decoded_text[120:121] '' --> ' '", - "insert text[71:71] --> decoded_text[122:123] '' --> ' '", - "insert text[72:72] --> decoded_text[124:125] '' --> ' '", - "insert text[73:73] --> decoded_text[126:127] '' --> ' '", - "insert text[74:74] --> decoded_text[128:129] '' --> ' '", - "insert text[75:75] --> decoded_text[130:131] '' --> ' '", - "insert text[76:76] --> decoded_text[132:133] '' --> ' '", - "insert text[77:77] --> decoded_text[134:135] '' --> ' '", - "insert text[78:78] --> decoded_text[136:137] '' --> ' '", - "insert text[79:79] --> decoded_text[138:139] '' --> ' '", - "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", - "insert text[82:82] --> decoded_text[144:145] '' --> ' '", - "insert text[83:83] --> decoded_text[146:147] '' --> ' '", - "insert text[84:84] --> decoded_text[148:149] '' --> ' '", - "insert text[85:85] --> decoded_text[150:151] '' --> ' '", - "insert text[86:86] --> decoded_text[152:153] '' --> ' '", - "insert text[87:87] --> decoded_text[154:155] '' --> ' '", - "insert text[88:88] --> decoded_text[156:157] '' --> ' '", - "insert text[89:89] --> decoded_text[158:159] '' --> ' '", - "insert text[90:90] --> decoded_text[160:161] '' --> ' '", - "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", - "insert text[93:93] --> decoded_text[166:167] '' --> ' '", - "insert text[94:94] --> decoded_text[168:169] '' --> ' '", - "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", - "insert text[97:97] --> decoded_text[174:175] '' --> ' '", - "insert text[98:98] --> decoded_text[176:177] '' --> ' '", - "insert text[99:99] --> decoded_text[178:179] '' --> ' '", - "insert text[100:100] --> decoded_text[180:181] '' --> ' '", - "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", - "insert text[103:103] --> decoded_text[186:187] '' --> ' '", - "insert text[104:104] --> decoded_text[188:189] '' --> ' '", - "insert text[105:105] --> decoded_text[190:191] '' --> ' '", - "insert text[106:106] --> decoded_text[192:193] '' --> ' '", - "insert text[107:107] --> decoded_text[194:195] '' --> ' '", - "insert text[108:108] --> decoded_text[196:197] '' --> ' '", - "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", - "insert text[111:111] --> decoded_text[202:203] '' --> ' '", - "insert text[112:112] --> decoded_text[204:205] '' --> ' '", - "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", - "insert text[115:115] --> decoded_text[210:211] '' --> ' '", - "insert text[116:116] --> decoded_text[212:213] '' --> ' '", - "insert text[117:117] --> decoded_text[214:215] '' --> ' '", - "insert text[118:118] --> decoded_text[216:217] '' --> ' '", - "insert text[119:119] --> decoded_text[218:219] '' --> ' '", - "insert text[120:120] --> decoded_text[220:221] '' --> ' '", - "insert text[121:121] --> decoded_text[222:223] '' --> ' '", - "insert text[122:122] --> decoded_text[224:225] '' --> ' '", - "insert text[123:123] --> decoded_text[226:227] '' --> ' '", - "insert text[124:124] --> decoded_text[228:229] '' --> ' '", - "insert text[125:125] --> decoded_text[230:231] '' --> ' '", - "insert text[126:126] --> decoded_text[232:233] '' --> ' '", - "insert text[127:127] --> decoded_text[234:235] '' --> ' '", - "insert text[128:128] --> decoded_text[236:237] '' --> ' '", - "insert text[129:129] --> decoded_text[238:239] '' --> ' '", - "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", - "replace text[132:133] --> decoded_text[244:246] 'S' --> 's '", - "insert text[134:134] --> decoded_text[247:248] '' --> ' '", - "insert text[135:135] --> decoded_text[249:250] '' --> ' '", - "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", - "insert text[138:138] --> decoded_text[255:256] '' --> ' '", - "insert text[139:139] --> decoded_text[257:258] '' --> ' '", - "insert text[140:140] --> decoded_text[259:260] '' --> ' '", - "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", - "insert text[143:143] --> decoded_text[265:266] '' --> ' '", - "insert text[144:144] --> decoded_text[267:268] '' --> ' '", - "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", - "insert text[147:147] --> decoded_text[273:274] '' --> ' '", - "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", - "insert text[150:150] --> decoded_text[279:280] '' --> ' '", - "insert text[151:151] --> decoded_text[281:282] '' --> ' '", - "insert text[152:152] --> decoded_text[283:284] '' --> ' '", - "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", - "insert text[155:155] --> decoded_text[289:290] '' --> ' '", - "insert text[156:156] --> decoded_text[291:292] '' --> ' '", - "insert text[157:157] --> decoded_text[293:294] '' --> ' '", - "insert text[158:158] --> decoded_text[295:296] '' --> ' '", - "insert text[159:159] --> decoded_text[297:298] '' --> ' '", - "insert text[163:163] --> decoded_text[302:303] '' --> ' '", - "insert text[164:164] --> decoded_text[304:305] '' --> ' '", - "insert text[165:165] --> decoded_text[306:307] '' --> ' '", - "insert text[166:166] --> decoded_text[308:309] '' --> ' '", - "insert text[167:167] --> decoded_text[310:311] '' --> ' '", - "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", - "insert text[170:170] --> decoded_text[316:317] '' --> ' '", - "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", - "insert text[174:174] --> decoded_text[324:325] '' --> ' '", - "insert text[175:175] --> decoded_text[326:327] '' --> ' '", - "insert text[176:176] --> decoded_text[328:329] '' --> ' '", - "insert text[177:177] --> decoded_text[330:331] '' --> ' '", - "insert text[178:178] --> decoded_text[332:333] '' --> ' '", - "insert text[179:179] --> decoded_text[334:335] '' --> ' '", - "insert text[180:180] --> decoded_text[336:337] '' --> ' '", - "insert text[181:181] --> decoded_text[338:339] '' --> ' '", - "insert text[182:182] --> decoded_text[340:341] '' --> ' '", - "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", - "insert text[185:185] --> decoded_text[346:347] '' --> ' '", - "insert text[186:186] --> decoded_text[348:349] '' --> ' '", - "insert text[187:187] --> decoded_text[350:351] '' --> ' '", - "insert text[188:188] --> decoded_text[352:353] '' --> ' '", - "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", - "insert text[191:191] --> decoded_text[358:359] '' --> ' '", - "insert text[192:192] --> decoded_text[360:361] '' --> ' '", - "insert text[193:193] --> decoded_text[362:363] '' --> ' '", - "insert text[194:194] --> decoded_text[364:365] '' --> ' '", - "insert text[195:195] --> decoded_text[366:367] '' --> ' '", - "insert text[196:196] --> decoded_text[368:369] '' --> ' '", - "insert text[206:206] --> decoded_text[379:380] '' --> ' '", - "insert text[207:207] --> decoded_text[381:382] '' --> ' '", - "insert text[211:211] --> decoded_text[386:387] '' --> ' '", - "insert text[212:212] --> decoded_text[388:389] '' --> ' '", - "insert text[213:213] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004672897196261682, - "oov_charset": "[\"S\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '", - "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "insert text[91:91] --> decoded_text[181:182] '' --> ' '", - "insert text[92:92] --> decoded_text[183:184] '' --> ' '", - "insert text[93:93] --> decoded_text[185:186] '' --> ' '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", - "insert text[101:101] --> decoded_text[201:202] '' --> ' '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "insert text[107:107] --> decoded_text[213:214] '' --> ' '", - "insert text[108:108] --> decoded_text[215:216] '' --> ' '", - "insert text[109:109] --> decoded_text[217:218] '' --> ' '", - "insert text[110:110] --> decoded_text[219:220] '' --> ' '", - "insert text[111:111] --> decoded_text[221:222] '' --> ' '", - "insert text[112:112] --> decoded_text[223:224] '' --> ' '", - "insert text[113:113] --> decoded_text[225:226] '' --> ' '", - "insert text[114:114] --> decoded_text[227:228] '' --> ' '", - "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", - "insert text[117:117] --> decoded_text[233:234] '' --> ' '", - "insert text[118:118] --> decoded_text[235:236] '' --> ' '", - "insert text[119:119] --> decoded_text[237:238] '' --> ' '", - "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", - "insert text[122:122] --> decoded_text[243:244] '' --> ' '", - "insert text[123:123] --> decoded_text[245:246] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "insert text[50:50] --> decoded_text[96:97] '' --> ' '", - "insert text[51:51] --> decoded_text[98:99] '' --> ' '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "insert text[61:61] --> decoded_text[118:119] '' --> ' '", - "insert text[62:62] --> decoded_text[120:121] '' --> ' '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "insert text[70:70] --> decoded_text[136:137] '' --> ' '", - "insert text[71:71] --> decoded_text[138:139] '' --> ' '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "insert text[5:5] --> decoded_text[8:9] '' --> ' '", - "insert text[6:6] --> decoded_text[10:11] '' --> ' '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "insert text[9:9] --> decoded_text[16:17] '' --> ' '", - "insert text[10:10] --> decoded_text[18:19] '' --> ' '", - "insert text[11:11] --> decoded_text[20:21] '' --> ' '", - "insert text[12:12] --> decoded_text[22:23] '' --> ' '", - "insert text[13:13] --> decoded_text[24:25] '' --> ' '", - "insert text[14:14] --> decoded_text[26:27] '' --> ' '", - "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", - "insert text[17:17] --> decoded_text[32:33] '' --> ' '", - "insert text[18:18] --> decoded_text[34:35] '' --> ' '", - "insert text[19:19] --> decoded_text[36:37] '' --> ' '", - "insert text[20:20] --> decoded_text[38:39] '' --> ' '", - "insert text[21:21] --> decoded_text[40:41] '' --> ' '", - "insert text[22:22] --> decoded_text[42:43] '' --> ' '", - "insert text[23:23] --> decoded_text[44:45] '' --> ' '", - "insert text[24:24] --> decoded_text[46:47] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[32:32] --> decoded_text[61:62] '' --> ' '", - "insert text[33:33] --> decoded_text[63:64] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", - "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", - "insert text[72:72] --> decoded_text[132:133] '' --> ' '", - "insert text[73:73] --> decoded_text[134:135] '' --> ' '", - "insert text[74:74] --> decoded_text[136:137] '' --> ' '", - "insert text[75:75] --> decoded_text[138:139] '' --> ' '", - "insert text[76:76] --> decoded_text[140:141] '' --> ' '", - "insert text[77:77] --> decoded_text[142:143] '' --> ' '", - "insert text[78:78] --> decoded_text[144:145] '' --> ' '", - "insert text[79:79] --> decoded_text[146:147] '' --> ' '", - "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", - "insert text[82:82] --> decoded_text[152:153] '' --> ' '", - "insert text[83:83] --> decoded_text[154:155] '' --> ' '", - "insert text[84:84] --> decoded_text[156:157] '' --> ' '", - "insert text[85:85] --> decoded_text[158:159] '' --> ' '", - "insert text[86:86] --> decoded_text[160:161] '' --> ' '", - "insert text[87:87] --> decoded_text[162:163] '' --> ' '", - "insert text[88:88] --> decoded_text[164:165] '' --> ' '", - "insert text[89:89] --> decoded_text[166:167] '' --> ' '", - "insert text[90:90] --> decoded_text[168:169] '' --> ' '", - "insert text[91:91] --> decoded_text[170:171] '' --> ' '", - "insert text[92:92] --> decoded_text[172:173] '' --> ' '", - "insert text[93:93] --> decoded_text[174:175] '' --> ' '", - "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", - "insert text[96:96] --> decoded_text[180:181] '' --> ' '", - "insert text[97:97] --> decoded_text[182:183] '' --> ' '", - "insert text[98:98] --> decoded_text[184:185] '' --> ' '", - "insert text[99:99] --> decoded_text[186:187] '' --> ' '", - "insert text[100:100] --> decoded_text[188:189] '' --> ' '", - "insert text[101:101] --> decoded_text[190:191] '' --> ' '", - "insert text[102:102] --> decoded_text[192:193] '' --> ' '", - "insert text[103:103] --> decoded_text[194:195] '' --> ' '", - "insert text[104:104] --> decoded_text[196:197] '' --> ' '", - "insert text[105:105] --> decoded_text[198:199] '' --> ' '", - "insert text[106:106] --> decoded_text[200:201] '' --> ' '", - "insert text[107:107] --> decoded_text[202:203] '' --> ' '", - "insert text[108:108] --> decoded_text[204:205] '' --> ' '", - "insert text[109:109] --> decoded_text[206:207] '' --> ' '", - "insert text[110:110] --> decoded_text[208:209] '' --> ' '", - "insert text[111:111] --> decoded_text[210:211] '' --> ' '", - "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", - "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", - "insert text[124:124] --> decoded_text[225:226] '' --> ' '", - "insert text[125:125] --> decoded_text[227:228] '' --> ' '", - "insert text[126:126] --> decoded_text[229:230] '' --> ' '", - "insert text[127:127] --> decoded_text[231:232] '' --> ' '", - "insert text[128:128] --> decoded_text[233:234] '' --> ' '", - "insert text[129:129] --> decoded_text[235:236] '' --> ' '", - "insert text[130:130] --> decoded_text[237:238] '' --> ' '", - "insert text[131:131] --> decoded_text[239:240] '' --> ' '", - "insert text[132:132] --> decoded_text[241:242] '' --> ' '", - "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", - "insert text[135:135] --> decoded_text[247:248] '' --> ' '", - "insert text[136:136] --> decoded_text[249:250] '' --> ' '", - "insert text[137:137] --> decoded_text[251:252] '' --> ' '", - "insert text[138:138] --> decoded_text[253:254] '' --> ' '", - "insert text[139:139] --> decoded_text[255:256] '' --> ' '", - "insert text[140:140] --> decoded_text[257:258] '' --> ' '", - "insert text[141:141] --> decoded_text[259:260] '' --> ' '", - "insert text[142:142] --> decoded_text[261:262] '' --> ' '", - "insert text[143:143] --> decoded_text[263:264] '' --> ' '", - "insert text[144:144] --> decoded_text[265:266] '' --> ' '", - "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", - "insert text[147:147] --> decoded_text[271:272] '' --> ' '", - "insert text[148:148] --> decoded_text[273:274] '' --> ' '", - "insert text[149:149] --> decoded_text[275:276] '' --> ' '", - "insert text[150:150] --> decoded_text[277:278] '' --> ' '", - "insert text[151:151] --> decoded_text[279:280] '' --> ' '", - "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", - "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", - "insert text[162:162] --> decoded_text[292:293] '' --> ' '", - "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", - "insert text[165:165] --> decoded_text[298:299] '' --> ' '", - "insert text[166:166] --> decoded_text[300:301] '' --> ' '", - "insert text[167:167] --> decoded_text[302:303] '' --> ' '", - "insert text[168:168] --> decoded_text[304:305] '' --> ' '", - "insert text[169:169] --> decoded_text[306:307] '' --> ' '", - "insert text[170:170] --> decoded_text[308:309] '' --> ' '", - "insert text[171:171] --> decoded_text[310:311] '' --> ' '", - "insert text[172:172] --> decoded_text[312:313] '' --> ' '", - "insert text[173:173] --> decoded_text[314:315] '' --> ' '", - "insert text[174:174] --> decoded_text[316:317] '' --> ' '", - "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", - "insert text[185:185] --> decoded_text[329:330] '' --> ' '", - "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", - "insert text[188:188] --> decoded_text[335:336] '' --> ' '", - "insert text[189:189] --> decoded_text[337:338] '' --> ' '", - "insert text[190:190] --> decoded_text[339:340] '' --> ' '", - "insert text[191:191] --> decoded_text[341:342] '' --> ' '", - "insert text[192:192] --> decoded_text[343:344] '' --> ' '", - "insert text[193:193] --> decoded_text[345:346] '' --> ' '", - "insert text[194:194] --> decoded_text[347:348] '' --> ' '", - "insert text[195:195] --> decoded_text[349:350] '' --> ' '", - "insert text[196:196] --> decoded_text[351:352] '' --> ' '", - "insert text[197:197] --> decoded_text[353:354] '' --> ' '", - "insert text[198:198] --> decoded_text[355:356] '' --> ' '", - "insert text[199:199] --> decoded_text[357:358] '' --> ' '", - "insert text[200:200] --> decoded_text[359:360] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.03482587064676617, - "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[31:31] --> decoded_text[60:61] '' --> ' '", - "insert text[32:32] --> decoded_text[62:63] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "insert text[62:62] --> decoded_text[121:122] '' --> ' '", - "insert text[63:63] --> decoded_text[123:124] '' --> ' '", - "insert text[64:64] --> decoded_text[125:126] '' --> ' '", - "insert text[65:65] --> decoded_text[127:128] '' --> ' '", - "insert text[66:66] --> decoded_text[129:130] '' --> ' '", - "insert text[67:67] --> decoded_text[131:132] '' --> ' '", - "insert text[68:68] --> decoded_text[133:134] '' --> ' '", - "insert text[69:69] --> decoded_text[135:136] '' --> ' '", - "insert text[70:70] --> decoded_text[137:138] '' --> ' '", - "insert text[71:71] --> decoded_text[139:140] '' --> ' '", - "insert text[72:72] --> decoded_text[141:142] '' --> ' '", - "insert text[73:73] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '", - "insert text[78:78] --> decoded_text[152:153] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[11:11] --> decoded_text[18:19] '' --> ' '", - "insert text[12:12] --> decoded_text[20:21] '' --> ' '", - "insert text[13:13] --> decoded_text[22:23] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[15:15] --> decoded_text[26:27] '' --> ' '", - "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", - "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", - "insert text[21:21] --> decoded_text[38:39] '' --> ' '", - "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", - "insert text[24:24] --> decoded_text[44:45] '' --> ' '", - "insert text[25:25] --> decoded_text[46:47] '' --> ' '", - "insert text[26:26] --> decoded_text[48:49] '' --> ' '", - "insert text[27:27] --> decoded_text[50:51] '' --> ' '", - "insert text[28:28] --> decoded_text[52:53] '' --> ' '", - "insert text[29:29] --> decoded_text[54:55] '' --> ' '", - "insert text[30:30] --> decoded_text[56:57] '' --> ' '", - "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", - "insert text[34:34] --> decoded_text[64:65] '' --> ' '", - "insert text[35:35] --> decoded_text[66:67] '' --> ' '", - "insert text[36:36] --> decoded_text[68:69] '' --> ' '", - "insert text[37:37] --> decoded_text[70:71] '' --> ' '", - "insert text[38:38] --> decoded_text[72:73] '' --> ' '", - "insert text[39:39] --> decoded_text[74:75] '' --> ' '", - "insert text[40:40] --> decoded_text[76:77] '' --> ' '", - "insert text[41:41] --> decoded_text[78:79] '' --> ' '", - "insert text[42:42] --> decoded_text[80:81] '' --> ' '", - "insert text[43:43] --> decoded_text[82:83] '' --> ' '", - "insert text[44:44] --> decoded_text[84:85] '' --> ' '", - "insert text[45:45] --> decoded_text[86:87] '' --> ' '", - "insert text[46:46] --> decoded_text[88:89] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", - "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", - "insert text[83:83] --> decoded_text[162:163] '' --> ' '", - "insert text[84:84] --> decoded_text[164:165] '' --> ' '", - "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", - "insert text[87:87] --> decoded_text[170:171] '' --> ' '", - "insert text[88:88] --> decoded_text[172:173] '' --> ' '", - "insert text[89:89] --> decoded_text[174:175] '' --> ' '", - "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", - "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", - "insert text[96:96] --> decoded_text[188:189] '' --> ' '", - "insert text[97:97] --> decoded_text[190:191] '' --> ' '", - "insert text[98:98] --> decoded_text[192:193] '' --> ' '", - "insert text[99:99] --> decoded_text[194:195] '' --> ' '", - "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", - "insert text[102:102] --> decoded_text[200:201] '' --> ' '", - "insert text[103:103] --> decoded_text[202:203] '' --> ' '", - "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", - "insert text[109:109] --> decoded_text[214:215] '' --> ' '", - "insert text[110:110] --> decoded_text[216:217] '' --> ' '", - "insert text[111:111] --> decoded_text[218:219] '' --> ' '", - "insert text[112:112] --> decoded_text[220:221] '' --> ' '", - "insert text[113:113] --> decoded_text[222:223] '' --> ' '", - "insert text[114:114] --> decoded_text[224:225] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", - "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", - "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", - "insert text[72:72] --> decoded_text[147:148] '' --> ' '", - "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", - "insert text[75:75] --> decoded_text[153:154] '' --> ' '", - "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", - "insert text[78:78] --> decoded_text[159:160] '' --> ' '", - "insert text[79:79] --> decoded_text[161:162] '' --> ' '", - "insert text[80:80] --> decoded_text[163:164] '' --> ' '", - "insert text[81:81] --> decoded_text[165:166] '' --> ' '", - "insert text[82:82] --> decoded_text[167:168] '' --> ' '", - "insert text[83:83] --> decoded_text[169:170] '' --> ' '", - "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", - "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", - "insert text[88:88] --> decoded_text[179:180] '' --> ' '", - "insert text[89:89] --> decoded_text[181:182] '' --> ' '", - "insert text[90:90] --> decoded_text[183:184] '' --> ' '", - "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", - "insert text[94:94] --> decoded_text[191:192] '' --> ' '", - "insert text[95:95] --> decoded_text[193:194] '' --> ' '", - "insert text[96:96] --> decoded_text[195:196] '' --> ' '", - "insert text[97:97] --> decoded_text[197:198] '' --> ' '", - "insert text[98:98] --> decoded_text[199:200] '' --> ' '", - "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", - "insert text[102:102] --> decoded_text[207:208] '' --> ' '", - "insert text[103:103] --> decoded_text[209:210] '' --> ' '", - "insert text[104:104] --> decoded_text[211:212] '' --> ' '", - "insert text[105:105] --> decoded_text[213:214] '' --> ' '", - "insert text[106:106] --> decoded_text[215:216] '' --> ' '", - "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", - "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", - "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", - "insert text[116:116] --> decoded_text[239:240] '' --> ' '", - "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", - "insert text[119:119] --> decoded_text[245:246] '' --> ' '", - "insert text[120:120] --> decoded_text[247:248] '' --> ' '", - "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", - "insert text[123:123] --> decoded_text[253:254] '' --> ' '", - "insert text[124:124] --> decoded_text[255:256] '' --> ' '", - "insert text[125:125] --> decoded_text[257:258] '' --> ' '", - "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", - "insert text[132:132] --> decoded_text[271:272] '' --> ' '", - "insert text[133:133] --> decoded_text[273:274] '' --> ' '", - "insert text[134:134] --> decoded_text[275:276] '' --> ' '", - "insert text[135:135] --> decoded_text[277:278] '' --> ' '", - "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.014598540145985401, - "oov_charset": "[\"“\", \"”\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[56:56] --> decoded_text[107:108] '' --> ' '", - "insert text[57:57] --> decoded_text[109:110] '' --> ' '", - "insert text[58:58] --> decoded_text[111:112] '' --> ' '", - "insert text[59:59] --> decoded_text[113:114] '' --> ' '", - "insert text[60:60] --> decoded_text[115:116] '' --> ' '", - "insert text[61:61] --> decoded_text[117:118] '' --> ' '", - "insert text[62:62] --> decoded_text[119:120] '' --> ' '", - "insert text[63:63] --> decoded_text[121:122] '' --> ' '", - "insert text[64:64] --> decoded_text[123:124] '' --> ' '", - "insert text[65:65] --> decoded_text[125:126] '' --> ' '", - "insert text[66:66] --> decoded_text[127:128] '' --> ' '", - "insert text[67:67] --> decoded_text[129:130] '' --> ' '", - "insert text[68:68] --> decoded_text[131:132] '' --> ' '", - "insert text[69:69] --> decoded_text[133:134] '' --> ' '", - "insert text[70:70] --> decoded_text[135:136] '' --> ' '", - "insert text[71:71] --> decoded_text[137:138] '' --> ' '", - "insert text[72:72] --> decoded_text[139:140] '' --> ' '", - "insert text[73:73] --> decoded_text[141:142] '' --> ' '", - "insert text[74:74] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[145:146] '' --> ' '", - "insert text[76:76] --> decoded_text[147:148] '' --> ' '", - "insert text[77:77] --> decoded_text[149:150] '' --> ' '", - "insert text[78:78] --> decoded_text[151:152] '' --> ' '", - "insert text[79:79] --> decoded_text[153:154] '' --> ' '", - "insert text[80:80] --> decoded_text[155:156] '' --> ' '", - "insert text[81:81] --> decoded_text[157:158] '' --> ' '", - "insert text[82:82] --> decoded_text[159:160] '' --> ' '", - "insert text[83:83] --> decoded_text[161:162] '' --> ' '", - "insert text[84:84] --> decoded_text[163:164] '' --> ' '", - "insert text[85:85] --> decoded_text[165:166] '' --> ' '", - "insert text[86:86] --> decoded_text[167:168] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "insert text[2:2] --> decoded_text[7:8] '' --> ' '", - "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", - "insert text[5:5] --> decoded_text[13:14] '' --> ' '", - "insert text[6:6] --> decoded_text[15:16] '' --> ' '", - "insert text[7:7] --> decoded_text[17:18] '' --> ' '", - "insert text[8:8] --> decoded_text[19:20] '' --> ' '", - "insert text[9:9] --> decoded_text[21:22] '' --> ' '", - "insert text[10:10] --> decoded_text[23:24] '' --> ' '", - "insert text[11:11] --> decoded_text[25:26] '' --> ' '", - "insert text[12:12] --> decoded_text[27:28] '' --> ' '", - "insert text[13:13] --> decoded_text[29:30] '' --> ' '", - "insert text[14:14] --> decoded_text[31:32] '' --> ' '", - "insert text[15:15] --> decoded_text[33:34] '' --> ' '", - "insert text[16:16] --> decoded_text[35:36] '' --> ' '", - "insert text[17:17] --> decoded_text[37:38] '' --> ' '", - "insert text[18:18] --> decoded_text[39:40] '' --> ' '", - "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", - "insert text[21:21] --> decoded_text[49:50] '' --> ' '", - "insert text[22:22] --> decoded_text[51:52] '' --> ' '", - "insert text[23:23] --> decoded_text[53:54] '' --> ' '", - "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", - "insert text[27:27] --> decoded_text[65:66] '' --> ' '", - "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", - "insert text[30:30] --> decoded_text[71:72] '' --> ' '", - "insert text[31:31] --> decoded_text[73:74] '' --> ' '", - "insert text[32:32] --> decoded_text[75:76] '' --> ' '", - "insert text[33:33] --> decoded_text[77:78] '' --> ' '", - "insert text[34:34] --> decoded_text[79:80] '' --> ' '", - "insert text[35:35] --> decoded_text[81:82] '' --> ' '", - "insert text[36:36] --> decoded_text[83:84] '' --> ' '", - "insert text[37:37] --> decoded_text[85:86] '' --> ' '", - "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", - "insert text[41:41] --> decoded_text[93:94] '' --> ' '", - "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", - "insert text[44:44] --> decoded_text[99:100] '' --> ' '", - "insert text[45:45] --> decoded_text[101:102] '' --> ' '", - "insert text[46:46] --> decoded_text[103:104] '' --> ' '", - "insert text[47:47] --> decoded_text[105:106] '' --> ' '", - "insert text[48:48] --> decoded_text[107:108] '' --> ' '", - "insert text[49:49] --> decoded_text[109:110] '' --> ' '", - "insert text[50:50] --> decoded_text[111:112] '' --> ' '", - "insert text[51:51] --> decoded_text[113:114] '' --> ' '", - "insert text[52:52] --> decoded_text[115:116] '' --> ' '", - "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", - "insert text[55:55] --> decoded_text[121:122] '' --> ' '", - "insert text[56:56] --> decoded_text[123:124] '' --> ' '", - "insert text[57:57] --> decoded_text[125:126] '' --> ' '", - "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", - "insert text[60:60] --> decoded_text[131:132] '' --> ' '", - "insert text[61:61] --> decoded_text[133:134] '' --> ' '", - "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", - "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", - "insert text[67:67] --> decoded_text[145:146] '' --> ' '", - "insert text[68:68] --> decoded_text[147:148] '' --> ' '", - "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", - "insert text[71:71] --> decoded_text[153:154] '' --> ' '", - "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", - "insert text[74:74] --> decoded_text[163:164] '' --> ' '", - "insert text[75:75] --> decoded_text[165:166] '' --> ' '", - "insert text[76:76] --> decoded_text[167:168] '' --> ' '", - "insert text[77:77] --> decoded_text[169:170] '' --> ' '", - "insert text[78:78] --> decoded_text[171:172] '' --> ' '", - "insert text[79:79] --> decoded_text[173:174] '' --> ' '", - "insert text[80:80] --> decoded_text[175:176] '' --> ' '", - "insert text[81:81] --> decoded_text[177:178] '' --> ' '", - "insert text[82:82] --> decoded_text[179:180] '' --> ' '", - "insert text[83:83] --> decoded_text[181:182] '' --> ' '", - "insert text[84:84] --> decoded_text[183:184] '' --> ' '", - "insert text[85:85] --> decoded_text[185:186] '' --> ' '", - "insert text[86:86] --> decoded_text[187:188] '' --> ' '", - "insert text[87:87] --> decoded_text[189:190] '' --> ' '", - "insert text[88:88] --> decoded_text[191:192] '' --> ' '", - "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", - "insert text[91:91] --> decoded_text[197:198] '' --> ' '", - "insert text[92:92] --> decoded_text[199:200] '' --> ' '", - "insert text[93:93] --> decoded_text[201:202] '' --> ' '", - "insert text[94:94] --> decoded_text[203:204] '' --> ' '", - "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", - "insert text[97:97] --> decoded_text[209:210] '' --> ' '", - "insert text[98:98] --> decoded_text[211:212] '' --> ' '", - "insert text[99:99] --> decoded_text[213:214] '' --> ' '", - "insert text[100:100] --> decoded_text[215:216] '' --> ' '", - "insert text[101:101] --> decoded_text[217:218] '' --> ' '", - "insert text[102:102] --> decoded_text[219:220] '' --> ' '", - "insert text[103:103] --> decoded_text[221:222] '' --> ' '", - "insert text[104:104] --> decoded_text[223:224] '' --> ' '", - "insert text[105:105] --> decoded_text[225:226] '' --> ' '", - "insert text[106:106] --> decoded_text[227:228] '' --> ' '", - "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", - "insert text[109:109] --> decoded_text[233:234] '' --> ' '", - "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", - "insert text[113:113] --> decoded_text[241:242] '' --> ' '", - "insert text[114:114] --> decoded_text[243:244] '' --> ' '", - "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", - "insert text[117:117] --> decoded_text[253:254] '' --> ' '", - "insert text[118:118] --> decoded_text[255:256] '' --> ' '", - "insert text[119:119] --> decoded_text[257:258] '' --> ' '", - "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", - "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", - "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", - "insert text[127:127] --> decoded_text[285:286] '' --> ' '", - "insert text[128:128] --> decoded_text[287:288] '' --> ' '", - "insert text[129:129] --> decoded_text[289:290] '' --> ' '", - "insert text[130:130] --> decoded_text[291:292] '' --> ' '", - "insert text[131:131] --> decoded_text[293:294] '' --> ' '" - ], - "n_oov_chars": 8, - "oov_ratio": 0.06060606060606061, - "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[244:246] 'S' --> 's '", + "insert text[134:134] --> decoded_text[247:248] '' --> ' '", + "insert text[135:135] --> decoded_text[249:250] '' --> ' '", + "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", + "insert text[138:138] --> decoded_text[255:256] '' --> ' '", + "insert text[139:139] --> decoded_text[257:258] '' --> ' '", + "insert text[140:140] --> decoded_text[259:260] '' --> ' '", + "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[265:266] '' --> ' '", + "insert text[144:144] --> decoded_text[267:268] '' --> ' '", + "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[273:274] '' --> ' '", + "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", + "insert text[150:150] --> decoded_text[279:280] '' --> ' '", + "insert text[151:151] --> decoded_text[281:282] '' --> ' '", + "insert text[152:152] --> decoded_text[283:284] '' --> ' '", + "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[289:290] '' --> ' '", + "insert text[156:156] --> decoded_text[291:292] '' --> ' '", + "insert text[157:157] --> decoded_text[293:294] '' --> ' '", + "insert text[158:158] --> decoded_text[295:296] '' --> ' '", + "insert text[159:159] --> decoded_text[297:298] '' --> ' '", + "insert text[163:163] --> decoded_text[302:303] '' --> ' '", + "insert text[164:164] --> decoded_text[304:305] '' --> ' '", + "insert text[165:165] --> decoded_text[306:307] '' --> ' '", + "insert text[166:166] --> decoded_text[308:309] '' --> ' '", + "insert text[167:167] --> decoded_text[310:311] '' --> ' '", + "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", + "insert text[170:170] --> decoded_text[316:317] '' --> ' '", + "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[324:325] '' --> ' '", + "insert text[175:175] --> decoded_text[326:327] '' --> ' '", + "insert text[176:176] --> decoded_text[328:329] '' --> ' '", + "insert text[177:177] --> decoded_text[330:331] '' --> ' '", + "insert text[178:178] --> decoded_text[332:333] '' --> ' '", + "insert text[179:179] --> decoded_text[334:335] '' --> ' '", + "insert text[180:180] --> decoded_text[336:337] '' --> ' '", + "insert text[181:181] --> decoded_text[338:339] '' --> ' '", + "insert text[182:182] --> decoded_text[340:341] '' --> ' '", + "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", + "insert text[185:185] --> decoded_text[346:347] '' --> ' '", + "insert text[186:186] --> decoded_text[348:349] '' --> ' '", + "insert text[187:187] --> decoded_text[350:351] '' --> ' '", + "insert text[188:188] --> decoded_text[352:353] '' --> ' '", + "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[358:359] '' --> ' '", + "insert text[192:192] --> decoded_text[360:361] '' --> ' '", + "insert text[193:193] --> decoded_text[362:363] '' --> ' '", + "insert text[194:194] --> decoded_text[364:365] '' --> ' '", + "insert text[195:195] --> decoded_text[366:367] '' --> ' '", + "insert text[196:196] --> decoded_text[368:369] '' --> ' '", + "insert text[206:206] --> decoded_text[379:380] '' --> ' '", + "insert text[207:207] --> decoded_text[381:382] '' --> ' '", + "insert text[211:211] --> decoded_text[386:387] '' --> ' '", + "insert text[212:212] --> decoded_text[388:389] '' --> ' '", + "insert text[213:213] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004672897196261682, + "oov_charset": "[\"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json index f57b9b3a399b1685cdf97458eae8f3b14615f6e2..1b404e74325f91da605400377ee3e2265f8c8ddb 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json @@ -1,207 +1,207 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )", - "diff": [ - "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", - "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'", - "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'", - "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'", - "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'", - "insert text[49:49] --> decoded_text[45:46] '' --> ' '" - ], - "n_oov_chars": 8, - "oov_ratio": 0.16, - "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]" - }, - { - "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", - "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] الما [UNK] لما [UNK] اليه [UNK] ابنايها من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الماساة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل, ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] او [UNK] [UNK] او اية [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..", - "diff": [ - "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'", - "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '", - "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'", - "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''", - "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'", - "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'", - "replace text[176:187] --> decoded_text[173:209] 'أعماق أعماق' --> '[UNK] [UNK] الما [UNK] لما [UNK] الي'", - "replace text[188:195] --> decoded_text[210:233] 'ا ألماً' --> ' [UNK] ابنايها من [UNK]'", - "replace text[197:198] --> decoded_text[235:337] 'أ' --> 'من [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الما'", - "replace text[199:205] --> decoded_text[338:380] 'ىً لما' --> 'اة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل,'", - "replace text[207:456] --> decoded_text[382:452] 'صل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> 'من [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK]'", - "replace text[469:473] --> decoded_text[465:735] 'فاجأ' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] ا'", - "replace text[474:484] --> decoded_text[736:750] 'ا العالم ب' --> ' [UNK] [UNK] ا'", - "replace text[485:486] --> decoded_text[751:770] 'ح' --> ' اية [UNK] [UNK], ع'", - "replace text[487:852] --> decoded_text[771:831] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK]'", - "replace text[866:879] --> decoded_text[845:856] 'القرن العشرين' --> '[UNK] [UNK]'", - "insert text[886:886] --> decoded_text[863:892] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'", - "replace text[887:966] --> decoded_text[893:950] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'" - ], - "n_oov_chars": 163, - "oov_ratio": 0.16873706004140787, - "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" - }, - { - "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", - "decoded_text": "واليوم وبعد ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن ايا [UNK] تياراتهم السياسية, او [UNK] [UNK] او [UNK] او [UNK], ان [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ايمان..", - "diff": [ - "replace text[12:49] --> decoded_text[12:52] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'", - "replace text[55:75] --> decoded_text[58:78] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'", - "replace text[83:92] --> decoded_text[86:105] 'فإن الحكم' --> '[UNK] [UNK] اليماني'", - "replace text[94:133] --> decoded_text[107:140] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن ايا [UNK]'", - "replace text[153:198] --> decoded_text[160:192] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> 'او [UNK] [UNK] او [UNK] او [UNK]'", - "replace text[200:226] --> decoded_text[194:217] 'أن يستذكروا جيداً ما وصفهم' --> 'ان [UNK] [UNK] ما [UNK]'", - "replace text[244:277] --> decoded_text[235:268] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'", - "replace text[287:333] --> decoded_text[278:322] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إ' --> '[UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ا'" - ], - "n_oov_chars": 54, - "oov_ratio": 0.1592920353982301, - "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" - }, - { - "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", - "decoded_text": "[UNK] الرسول [UNK] ما هي الا [UNK] من الله.. [UNK] ان العمل بما [UNK] الرسول [UNK] هو مسوولية [UNK] ودينية ومسوولية سياسية..", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", - "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'", - "replace text[28:29] --> decoded_text[25:26] 'إ' --> 'ا'", - "replace text[32:35] --> decoded_text[29:34] 'وحي' --> '[UNK]'", - "replace text[46:51] --> decoded_text[45:50] 'بمعنى' --> '[UNK]'", - "replace text[52:53] --> decoded_text[51:52] 'أ' --> 'ا'", - "replace text[65:69] --> decoded_text[64:69] 'قاله' --> '[UNK]'", - "replace text[77:83] --> decoded_text[77:82] 'الأعظم' --> '[UNK]'", - "replace text[89:90] --> decoded_text[88:89] 'ؤ' --> 'و'", - "replace text[95:102] --> decoded_text[94:99] 'أخلاقية' --> '[UNK]'", - "replace text[113:114] --> decoded_text[110:111] 'ؤ' --> 'و'" - ], - "n_oov_chars": 16, - "oov_ratio": 0.12598425196850394, - "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]" - }, - { - "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", - "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] ان [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", - "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", - "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'", - "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", - "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", - "insert text[48:48] --> decoded_text[50:56] '' --> '[UNK] '", - "delete text[49:56] --> decoded_text[57:57] 'لحكمة أ' --> ''", - "replace text[58:61] --> decoded_text[59:64] 'تظل' --> '[UNK]'", - "replace text[62:70] --> decoded_text[65:70] 'البندقية' --> '[UNK]'", - "replace text[71:79] --> decoded_text[71:76] 'والقذيفة' --> '[UNK]'", - "replace text[89:95] --> decoded_text[86:91] 'الخطاب' --> '[UNK]'", - "replace text[96:103] --> decoded_text[92:97] 'والحوار' --> '[UNK]'", - "replace text[104:108] --> decoded_text[98:103] 'فيما' --> '[UNK]'", - "replace text[115:118] --> decoded_text[110:115] 'نحن' --> '[UNK]'", - "replace text[119:124] --> decoded_text[116:121] 'أبناء' --> '[UNK]'", - "replace text[125:128] --> decoded_text[122:127] 'هذا' --> '[UNK]'", - "replace text[135:141] --> decoded_text[134:139] 'العظيم' --> '[UNK]'" - ], - "n_oov_chars": 25, - "oov_ratio": 0.17482517482517482, - "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]" - }, - { - "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", - "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] اله..", - "diff": [ - "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'", - "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'", - "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'", - "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'", - "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'", - "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'", - "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'", - "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'", - "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'", - "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'", - "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'", - "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'", - "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'", - "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'", - "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'", - "replace text[152:153] --> decoded_text[148:149] 'آ' --> 'ا'" - ], - "n_oov_chars": 22, - "oov_ratio": 0.14012738853503184, - "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] لاعدايه..", - "diff": [ - "replace text[0:7] --> decoded_text[0:225] 'أنا لا ' --> 'انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] ل'", - "replace text[9:65] --> decoded_text[227:229] 'تقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري ف' --> 'دا'", - "delete text[69:226] --> decoded_text[233:233] ' أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> ''" - ], - "n_oov_chars": 47, - "oov_ratio": 0.2079646017699115, - "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]" - }, - { - "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", - "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] انهم بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوات بايدي [UNK] او [UNK], او [UNK].. [UNK]!", - "diff": [ - "replace text[6:7] --> decoded_text[6:58] 'أ' --> '[UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] ا'", - "delete text[9:58] --> decoded_text[60:60] 'ك من العدوان ومن الحصار حتى أولئك الذين يظنون أنه' --> ''", - "replace text[70:88] --> decoded_text[72:83] 'التأثيرات المباشرة' --> '[UNK] [UNK]'", - "replace text[121:125] --> decoded_text[116:128] 'والأ' --> '[UNK] والمتا'", - "replace text[127:134] --> decoded_text[130:358] 'اء والم' --> ' [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوا'", - "replace text[135:137] --> decoded_text[359:360] 'اع' --> ' '", - "replace text[138:150] --> decoded_text[361:380] ' طالت الجميع' --> 'ايدي [UNK] او [UNK]'", - "replace text[152:403] --> decoded_text[382:390] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> 'او [UNK]'", - "replace text[405:406] --> decoded_text[392:398] '؟' --> ' [UNK]'" - ], - "n_oov_chars": 73, - "oov_ratio": 0.17936117936117937, - "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" - }, - { - "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", - "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربية [UNK] اسلامية.. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل ابيب!!", - "diff": [ - "replace text[4:59] --> decoded_text[4:106] 'انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتن' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربي'", - "replace text[61:112] --> decoded_text[108:115] 'ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إ' --> '[UNK] ا'", - "replace text[121:126] --> decoded_text[124:129] 'أجندة' --> '[UNK]'", - "replace text[132:144] --> decoded_text[135:146] 'فيها الضمائر' --> '[UNK] [UNK]'", - "replace text[151:222] --> decoded_text[153:242] 'فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرا' --> '[UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[223:242] --> decoded_text[243:246] ' في واشنطن وفي تل أ' --> 'ل ا'" - ], - "n_oov_chars": 46, - "oov_ratio": 0.1862348178137652, - "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" - }, - { - "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", - "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد اهلها [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] ابو [UNK], [UNK] [UNK], [UNK] [UNK]..", - "diff": [ - "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", - "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", - "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", - "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", - "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", - "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", - "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", - "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", - "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", - "replace text[77:78] --> decoded_text[78:79] 'أ' --> 'ا'", - "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", - "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", - "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'", - "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'", - "replace text[149:153] --> decoded_text[140:152] 'وجهه' --> '[UNK] [UNK] '", - "delete text[154:160] --> decoded_text[153:153] ' صوب أ' --> ''", - "replace text[163:166] --> decoded_text[156:161] 'ظبي' --> '[UNK]'", - "replace text[168:172] --> decoded_text[163:168] 'وصوب' --> '[UNK]'", - "replace text[173:179] --> decoded_text[169:174] 'الرياض' --> '[UNK]'", - "replace text[181:185] --> decoded_text[176:181] 'وصوب' --> '[UNK]'", - "replace text[186:192] --> decoded_text[182:187] 'واشنطن' --> '[UNK]'" - ], - "n_oov_chars": 29, - "oov_ratio": 0.14948453608247422, - "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )", + "diff": [ + "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", + "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'", + "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'", + "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'", + "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'", + "insert text[49:49] --> decoded_text[45:46] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.16, + "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] الما [UNK] لما [UNK] اليه [UNK] ابنايها من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الماساة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل, ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] او [UNK] [UNK] او اية [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..", + "diff": [ + "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'", + "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '", + "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'", + "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''", + "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'", + "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'", + "replace text[176:187] --> decoded_text[173:209] 'أعماق أعماق' --> '[UNK] [UNK] الما [UNK] لما [UNK] الي'", + "replace text[188:195] --> decoded_text[210:233] 'ا ألماً' --> ' [UNK] ابنايها من [UNK]'", + "replace text[197:198] --> decoded_text[235:337] 'أ' --> 'من [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الما'", + "replace text[199:205] --> decoded_text[338:380] 'ىً لما' --> 'اة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل,'", + "replace text[207:456] --> decoded_text[382:452] 'صل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> 'من [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK]'", + "replace text[469:473] --> decoded_text[465:735] 'فاجأ' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "replace text[474:484] --> decoded_text[736:750] 'ا العالم ب' --> ' [UNK] [UNK] ا'", + "replace text[485:486] --> decoded_text[751:770] 'ح' --> ' اية [UNK] [UNK], ع'", + "replace text[487:852] --> decoded_text[771:831] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK]'", + "replace text[866:879] --> decoded_text[845:856] 'القرن العشرين' --> '[UNK] [UNK]'", + "insert text[886:886] --> decoded_text[863:892] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'", + "replace text[887:966] --> decoded_text[893:950] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'" + ], + "n_oov_chars": 163, + "oov_ratio": 0.16873706004140787, + "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "واليوم وبعد ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن ايا [UNK] تياراتهم السياسية, او [UNK] [UNK] او [UNK] او [UNK], ان [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ايمان..", + "diff": [ + "replace text[12:49] --> decoded_text[12:52] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'", + "replace text[55:75] --> decoded_text[58:78] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'", + "replace text[83:92] --> decoded_text[86:105] 'فإن الحكم' --> '[UNK] [UNK] اليماني'", + "replace text[94:133] --> decoded_text[107:140] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن ايا [UNK]'", + "replace text[153:198] --> decoded_text[160:192] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> 'او [UNK] [UNK] او [UNK] او [UNK]'", + "replace text[200:226] --> decoded_text[194:217] 'أن يستذكروا جيداً ما وصفهم' --> 'ان [UNK] [UNK] ما [UNK]'", + "replace text[244:277] --> decoded_text[235:268] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'", + "replace text[287:333] --> decoded_text[278:322] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إ' --> '[UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ا'" + ], + "n_oov_chars": 54, + "oov_ratio": 0.1592920353982301, + "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "[UNK] الرسول [UNK] ما هي الا [UNK] من الله.. [UNK] ان العمل بما [UNK] الرسول [UNK] هو مسوولية [UNK] ودينية ومسوولية سياسية..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", + "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'", + "replace text[28:29] --> decoded_text[25:26] 'إ' --> 'ا'", + "replace text[32:35] --> decoded_text[29:34] 'وحي' --> '[UNK]'", + "replace text[46:51] --> decoded_text[45:50] 'بمعنى' --> '[UNK]'", + "replace text[52:53] --> decoded_text[51:52] 'أ' --> 'ا'", + "replace text[65:69] --> decoded_text[64:69] 'قاله' --> '[UNK]'", + "replace text[77:83] --> decoded_text[77:82] 'الأعظم' --> '[UNK]'", + "replace text[89:90] --> decoded_text[88:89] 'ؤ' --> 'و'", + "replace text[95:102] --> decoded_text[94:99] 'أخلاقية' --> '[UNK]'", + "replace text[113:114] --> decoded_text[110:111] 'ؤ' --> 'و'" + ], + "n_oov_chars": 16, + "oov_ratio": 0.12598425196850394, + "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] ان [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", + "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", + "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'", + "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", + "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", + "insert text[48:48] --> decoded_text[50:56] '' --> '[UNK] '", + "delete text[49:56] --> decoded_text[57:57] 'لحكمة أ' --> ''", + "replace text[58:61] --> decoded_text[59:64] 'تظل' --> '[UNK]'", + "replace text[62:70] --> decoded_text[65:70] 'البندقية' --> '[UNK]'", + "replace text[71:79] --> decoded_text[71:76] 'والقذيفة' --> '[UNK]'", + "replace text[89:95] --> decoded_text[86:91] 'الخطاب' --> '[UNK]'", + "replace text[96:103] --> decoded_text[92:97] 'والحوار' --> '[UNK]'", + "replace text[104:108] --> decoded_text[98:103] 'فيما' --> '[UNK]'", + "replace text[115:118] --> decoded_text[110:115] 'نحن' --> '[UNK]'", + "replace text[119:124] --> decoded_text[116:121] 'أبناء' --> '[UNK]'", + "replace text[125:128] --> decoded_text[122:127] 'هذا' --> '[UNK]'", + "replace text[135:141] --> decoded_text[134:139] 'العظيم' --> '[UNK]'" + ], + "n_oov_chars": 25, + "oov_ratio": 0.17482517482517482, + "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] اله..", + "diff": [ + "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'", + "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'", + "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'", + "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'", + "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'", + "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'", + "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'", + "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'", + "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'", + "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'", + "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'", + "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'", + "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'", + "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'", + "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'", + "replace text[152:153] --> decoded_text[148:149] 'آ' --> 'ا'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.14012738853503184, + "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] لاعدايه..", + "diff": [ + "replace text[0:7] --> decoded_text[0:225] 'أنا لا ' --> 'انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] ل'", + "replace text[9:65] --> decoded_text[227:229] 'تقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري ف' --> 'دا'", + "delete text[69:226] --> decoded_text[233:233] ' أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.2079646017699115, + "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] انهم بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوات بايدي [UNK] او [UNK], او [UNK].. [UNK]!", + "diff": [ + "replace text[6:7] --> decoded_text[6:58] 'أ' --> '[UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "delete text[9:58] --> decoded_text[60:60] 'ك من العدوان ومن الحصار حتى أولئك الذين يظنون أنه' --> ''", + "replace text[70:88] --> decoded_text[72:83] 'التأثيرات المباشرة' --> '[UNK] [UNK]'", + "replace text[121:125] --> decoded_text[116:128] 'والأ' --> '[UNK] والمتا'", + "replace text[127:134] --> decoded_text[130:358] 'اء والم' --> ' [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوا'", + "replace text[135:137] --> decoded_text[359:360] 'اع' --> ' '", + "replace text[138:150] --> decoded_text[361:380] ' طالت الجميع' --> 'ايدي [UNK] او [UNK]'", + "replace text[152:403] --> decoded_text[382:390] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> 'او [UNK]'", + "replace text[405:406] --> decoded_text[392:398] '؟' --> ' [UNK]'" + ], + "n_oov_chars": 73, + "oov_ratio": 0.17936117936117937, + "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربية [UNK] اسلامية.. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل ابيب!!", + "diff": [ + "replace text[4:59] --> decoded_text[4:106] 'انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتن' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربي'", + "replace text[61:112] --> decoded_text[108:115] 'ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إ' --> '[UNK] ا'", + "replace text[121:126] --> decoded_text[124:129] 'أجندة' --> '[UNK]'", + "replace text[132:144] --> decoded_text[135:146] 'فيها الضمائر' --> '[UNK] [UNK]'", + "replace text[151:222] --> decoded_text[153:242] 'فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرا' --> '[UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[223:242] --> decoded_text[243:246] ' في واشنطن وفي تل أ' --> 'ل ا'" + ], + "n_oov_chars": 46, + "oov_ratio": 0.1862348178137652, + "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد اهلها [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] ابو [UNK], [UNK] [UNK], [UNK] [UNK]..", + "diff": [ + "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", + "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", + "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", + "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", + "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", + "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", + "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", + "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", + "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", + "replace text[77:78] --> decoded_text[78:79] 'أ' --> 'ا'", + "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", + "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", + "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'", + "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'", + "replace text[149:153] --> decoded_text[140:152] 'وجهه' --> '[UNK] [UNK] '", + "delete text[154:160] --> decoded_text[153:153] ' صوب أ' --> ''", + "replace text[163:166] --> decoded_text[156:161] 'ظبي' --> '[UNK]'", + "replace text[168:172] --> decoded_text[163:168] 'وصوب' --> '[UNK]'", + "replace text[173:179] --> decoded_text[169:174] 'الرياض' --> '[UNK]'", + "replace text[181:185] --> decoded_text[176:181] 'وصوب' --> '[UNK]'", + "replace text[186:192] --> decoded_text[182:187] 'واشنطن' --> '[UNK]'" + ], + "n_oov_chars": 29, + "oov_ratio": 0.14948453608247422, + "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json index 14b218a13ea6cd4cae5eaa9ecca19a0cc5ff06ab..23d1eef70b0f3097d6da175953e465393b412d14 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json @@ -1,213 +1,213 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", - "diff": [ - "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", - "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", - "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", - "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", - "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", - "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", - "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", - "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", - "insert text[120:120] --> decoded_text[127:128] '' --> ' '", - "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", - "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", - "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", - "insert text[199:199] --> decoded_text[208:209] '' --> ' '", - "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", - "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", - "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.08571428571428572, - "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", - "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", - "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", - "insert text[64:64] --> decoded_text[65:66] '' --> ' '", - "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", - "insert text[74:74] --> decoded_text[77:78] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", - "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", - "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", - "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", - "insert text[62:62] --> decoded_text[62:63] '' --> ' '", - "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", - "insert text[66:66] --> decoded_text[67:68] '' --> ' '", - "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", - "insert text[91:91] --> decoded_text[96:97] '' --> ' '", - "insert text[92:92] --> decoded_text[98:99] '' --> ' '", - "insert text[93:93] --> decoded_text[100:101] '' --> ' '", - "insert text[94:94] --> decoded_text[102:103] '' --> ' '", - "insert text[101:101] --> decoded_text[110:111] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.06796116504854369, - "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", - "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", - "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", - "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.12, - "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", - "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", - "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", - "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", - "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", - "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", - "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", - "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", - "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", - "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", - "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", - "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", - "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", - "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", - "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", - "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", - "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" - ], - "n_oov_chars": 41, - "oov_ratio": 0.06047197640117994, - "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", - "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", - "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", - "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", - "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", - "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", - "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", - "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", - "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", - "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", - "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.05429864253393665, - "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", - "diff": [ - "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", - "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", - "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", - "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", - "insert text[176:176] --> decoded_text[176:177] '' --> ' '", - "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", - "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", - "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", - "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", - "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", - "insert text[394:394] --> decoded_text[395:396] '' --> ' '", - "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.053830227743271224, - "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", - "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", - "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", - "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", - "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.07407407407407407, - "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", - "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", - "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", - "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", - "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", - "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", - "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", - "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", - "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", - "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", - "insert text[188:188] --> decoded_text[188:189] '' --> ' '" - ], - "n_oov_chars": 10, - "oov_ratio": 0.05291005291005291, - "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", - "diff": [ - "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", - "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", - "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", - "insert text[87:87] --> decoded_text[87:88] '' --> ' '", - "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", - "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", - "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", - "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", - "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", - "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", - "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", - "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", - "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", - "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", - "insert text[188:188] --> decoded_text[190:191] '' --> ' '", - "insert text[189:189] --> decoded_text[192:193] '' --> ' '" - ], - "n_oov_chars": 13, - "oov_ratio": 0.06842105263157895, - "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", + "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[127:128] '' --> ' '", + "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[208:209] '' --> ' '", + "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.08571428571428572, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "insert text[74:74] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json index ca3ead18ec5e53ea20054361670fee1942268f82..7c943b8ea865b493b9882ee31c082f783371c8e1 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json @@ -1,164 +1,164 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.03461538461538462, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "replace text[19:20] --> decoded_text[20:27] '’' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[60:61] '' --> ' '", - "insert text[66:66] --> decoded_text[74:75] '' --> ' '", - "insert text[79:79] --> decoded_text[88:89] '' --> ' '", - "replace text[140:141] --> decoded_text[150:156] '”' --> ' [UNK]'", - "replace text[156:175] --> decoded_text[171:190] 'Christa Frosch of S' --> 'christa frosch of s'", - "replace text[181:191] --> decoded_text[196:212] '’s tells B' --> ' [UNK] s tells b'", - "replace text[194:195] --> decoded_text[215:216] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[219:220] 'N' --> 'n'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.04926108374384237, - "oov_charset": "[\"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "insert text[340:340] --> decoded_text[345:346] '' --> ' '", - "insert text[376:376] --> decoded_text[382:383] '' --> ' '", - "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.015424164524421594, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "replace text[41:42] --> decoded_text[42:49] '’' --> ' [UNK] '", - "replace text[60:61] --> decoded_text[67:68] 'S' --> 's'", - "replace text[67:68] --> decoded_text[74:81] '’' --> ' [UNK] '", - "replace text[76:77] --> decoded_text[89:96] '’' --> ' [UNK] '", - "replace text[109:110] --> decoded_text[128:134] '”' --> ' [UNK]'", - "replace text[116:117] --> decoded_text[140:141] 'F' --> 'f'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.056910569105691054, - "oov_charset": "[\"W\", \"’\", \"S\", \"”\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", - "insert text[57:57] --> decoded_text[63:64] '' --> ' '", - "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", - "insert text[139:139] --> decoded_text[150:151] '' --> ' '", - "insert text[140:140] --> decoded_text[152:153] '' --> ' '", - "replace text[144:145] --> decoded_text[157:164] '”' --> ' [UNK] '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.016877637130801686, - "oov_charset": "[\"S\", \"—\", \"Y\", \"”\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "replace text[19:20] --> decoded_text[20:27] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[60:61] '' --> ' '", + "insert text[66:66] --> decoded_text[74:75] '' --> ' '", + "insert text[79:79] --> decoded_text[88:89] '' --> ' '", + "replace text[140:141] --> decoded_text[150:156] '”' --> ' [UNK]'", + "replace text[156:175] --> decoded_text[171:190] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[181:191] --> decoded_text[196:212] '’s tells B' --> ' [UNK] s tells b'", + "replace text[194:195] --> decoded_text[215:216] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[219:220] 'N' --> 'n'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04926108374384237, + "oov_charset": "[\"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "replace text[41:42] --> decoded_text[42:49] '’' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[67:68] 'S' --> 's'", + "replace text[67:68] --> decoded_text[74:81] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[89:96] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[128:134] '”' --> ' [UNK]'", + "replace text[116:117] --> decoded_text[140:141] 'F' --> 'f'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.056910569105691054, + "oov_charset": "[\"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[150:151] '' --> ' '", + "insert text[140:140] --> decoded_text[152:153] '' --> ' '", + "replace text[144:145] --> decoded_text[157:164] '”' --> ' [UNK] '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.016877637130801686, + "oov_charset": "[\"S\", \"—\", \"Y\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json index 75bd0454a3c31ec6a6dfb75dcdb0fe483cc7efbc..ba77ace74cd930192aac49260745a040f82d0079 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json @@ -1,153 +1,153 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "[UNK] [UNK] من : february 2012", - "diff": [ - "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", - "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", - "insert text[16:16] --> decoded_text[14:15] '' --> ' '", - "replace text[18:19] --> decoded_text[17:18] 'F' --> 'f'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.2903225806451613, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "[UNK] [UNK] من", - "diff": [ - "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", - "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.625, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", - "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", - "insert text[11:11] --> decoded_text[13:14] '' --> ' '", - "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", - "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", - "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.4230769230769231, - "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", - "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.2222222222222222, - "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", - "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'", - "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'", - "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.16666666666666666, - "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[7:7] --> decoded_text[11:12] '' --> ' '", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '", - "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'", - "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'", - "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.3333333333333333, - "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", - "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", - "insert text[12:12] --> decoded_text[13:14] '' --> ' '", - "insert text[16:16] --> decoded_text[18:19] '' --> ' '", - "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''", - "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'", - "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.3225806451612903, - "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]" - }, - { - "text": "فر رو روی 350 درجه فارنهایت روشن کنید", - "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", - "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'", - "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'", - "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'", - "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'", - "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.21621621621621623, - "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]" - }, - { - "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", - "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", - "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'", - "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'", - "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'", - "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'", - "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'", - "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'", - "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'", - "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'", - "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'", - "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'" - ], - "n_oov_chars": 18, - "oov_ratio": 0.20689655172413793, - "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]" - }, - { - "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", - "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]", - "diff": [ - "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'", - "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'", - "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'", - "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'", - "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'", - "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'", - "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'" - ], - "n_oov_chars": 12, - "oov_ratio": 0.2553191489361702, - "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "[UNK] [UNK] من : february 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "insert text[16:16] --> decoded_text[14:15] '' --> ' '", + "replace text[18:19] --> decoded_text[17:18] 'F' --> 'f'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.2903225806451613, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "[UNK] [UNK] من", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.625, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", + "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", + "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", + "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.4230769230769231, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", + "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.2222222222222222, + "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", + "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'", + "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'", + "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.16666666666666666, + "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[7:7] --> decoded_text[11:12] '' --> ' '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '", + "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'", + "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'", + "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.3333333333333333, + "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", + "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "insert text[16:16] --> decoded_text[18:19] '' --> ' '", + "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''", + "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'", + "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.3225806451612903, + "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", + "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'", + "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'", + "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'", + "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'", + "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.21621621621621623, + "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", + "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'", + "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'", + "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'", + "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'", + "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'", + "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'", + "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'", + "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'", + "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'", + "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.20689655172413793, + "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]", + "diff": [ + "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'", + "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'", + "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'", + "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'", + "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'", + "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'", + "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 12, + "oov_ratio": 0.2553191489361702, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json index 46c4961cf3d2adb6b0b1e6925d20246ed36b6f96..448e8f43129e8d493c44d13c4c467077b35e44ef 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json @@ -1,210 +1,210 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午 [UNK] [UNK] 雨 [UNK] 心 配 [UNK] [UNK] 出 [UNK] 、 『 [UNK] 』 [UNK] 走 [UNK] 来 [UNK] !", - "diff": [ - "replace text[1:4] --> decoded_text[1:14] '後から' --> ' [UNK] [UNK] '", - "replace text[5:6] --> decoded_text[15:22] 'が' --> ' [UNK] '", - "insert text[7:7] --> decoded_text[23:24] '' --> ' '", - "replace text[8:14] --> decoded_text[25:38] 'だったので遠' --> ' [UNK] [UNK] '", - "replace text[15:18] --> decoded_text[39:46] 'はせず' --> ' [UNK] '", - "insert text[19:19] --> decoded_text[47:48] '' --> ' '", - "replace text[20:27] --> decoded_text[49:56] 'ふれあいロード' --> ' [UNK] '", - "replace text[28:29] --> decoded_text[57:64] 'を' --> ' [UNK] '", - "replace text[30:32] --> decoded_text[65:72] 'って' --> ' [UNK] '", - "replace text[33:36] --> decoded_text[73:80] 'ました' --> ' [UNK] '" - ], - "n_oov_chars": 26, - "oov_ratio": 0.7027027027027027, - "oov_charset": "[\"後\", \"か\", \"ら\", \"が\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"は\", \"せ\", \"ず\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"を\", \"て\", \"ま\", \"し\"]" - }, - { - "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", - "decoded_text": "[UNK] 実 [UNK] 春 [UNK] 近 [UNK] 肌 [UNK] 感 [UNK] 出 来 [UNK] 着 [UNK] 整 [UNK] [UNK] 圏 央 道 [UNK] 越 [UNK] 世 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 来 [UNK] 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '確' --> '[UNK] '", - "replace text[2:3] --> decoded_text[7:14] 'に' --> ' [UNK] '", - "replace text[4:5] --> decoded_text[15:22] 'が' --> ' [UNK] '", - "replace text[6:13] --> decoded_text[23:30] 'づいてることを' --> ' [UNK] '", - "replace text[14:15] --> decoded_text[31:38] 'で' --> ' [UNK] '", - "replace text[16:21] --> decoded_text[39:46] 'じることが' --> ' [UNK] '", - "insert text[22:22] --> decoded_text[47:48] '' --> ' '", - "replace text[23:26] --> decoded_text[49:55] 'ました' --> ' [UNK]'", - "replace text[28:30] --> decoded_text[57:64] '々と' --> ' [UNK] '", - "replace text[31:36] --> decoded_text[65:78] '備されてる' --> ' [UNK] [UNK] '", - "insert text[37:37] --> decoded_text[79:80] '' --> ' '", - "insert text[38:38] --> decoded_text[81:82] '' --> ' '", - "replace text[39:40] --> decoded_text[83:90] 'を' --> ' [UNK] '", - "replace text[41:45] --> decoded_text[91:98] 'えるとお' --> ' [UNK] '", - "replace text[46:62] --> decoded_text[99:136] '話になってるボウリング場が見えて' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[63:66] --> decoded_text[137:144] 'ました' --> ' [UNK] '" - ], - "n_oov_chars": 49, - "oov_ratio": 0.7313432835820896, - "oov_charset": "[\"確\", \"に\", \"が\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"で\", \"じ\", \"ま\", \"し\", \"た\", \"備\", \"さ\", \"れ\", \"え\", \"お\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\"]" - }, - { - "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "decoded_text": "[UNK] 〜 〜 、 私 [UNK] 途 中 [UNK] 行 [UNK] 、 通 [UNK] 道 [UNK] 変 更 [UNK] 。", - "diff": [ - "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '", - "insert text[3:3] --> decoded_text[7:8] '' --> ' '", - "insert text[4:4] --> decoded_text[9:10] '' --> ' '", - "insert text[5:5] --> decoded_text[11:12] '' --> ' '", - "replace text[6:7] --> decoded_text[13:20] 'が' --> ' [UNK] '", - "insert text[8:8] --> decoded_text[21:22] '' --> ' '", - "replace text[9:14] --> decoded_text[23:30] 'でトイレに' --> ' [UNK] '", - "replace text[15:24] --> decoded_text[31:38] 'きたくなってしまい' --> ' [UNK] '", - "insert text[25:25] --> decoded_text[39:40] '' --> ' '", - "replace text[26:27] --> decoded_text[41:48] 'り' --> ' [UNK] '", - "replace text[28:36] --> decoded_text[49:56] 'にあったケンタに' --> ' [UNK] '", - "insert text[37:37] --> decoded_text[57:58] '' --> ' '", - "replace text[38:45] --> decoded_text[59:66] 'しちゃいました' --> ' [UNK] '" - ], - "n_oov_chars": 33, - "oov_ratio": 0.717391304347826, - "oov_charset": "[\"う\", \"ぅ\", \"が\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"り\", \"あ\", \"ケ\", \"ン\", \"タ\", \"ち\", \"ゃ\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実 [UNK] 、 1 年 程 前 [UNK] 右 目 [UNK] 黒 目 [UNK] 端 [UNK] 〜 [UNK] [UNK] [UNK] 分 [UNK] 程 [UNK] 小 [UNK] 斑 [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[1:2] --> decoded_text[1:8] 'は' --> ' [UNK] '", - "insert text[3:3] --> decoded_text[9:10] '' --> ' '", - "insert text[4:4] --> decoded_text[11:12] '' --> ' '", - "insert text[5:5] --> decoded_text[13:14] '' --> ' '", - "insert text[6:6] --> decoded_text[15:16] '' --> ' '", - "replace text[7:13] --> decoded_text[17:24] 'にエルモサの' --> ' [UNK] '", - "insert text[14:14] --> decoded_text[25:26] '' --> ' '", - "replace text[15:16] --> decoded_text[27:34] 'の' --> ' [UNK] '", - "insert text[17:17] --> decoded_text[35:36] '' --> ' '", - "replace text[18:19] --> decoded_text[37:44] 'の' --> ' [UNK] '", - "replace text[20:22] --> decoded_text[45:52] 'によ' --> ' [UNK] '", - "replace text[23:28] --> decoded_text[53:72] 'く見ないと' --> ' [UNK] [UNK] [UNK] '", - "replace text[29:33] --> decoded_text[73:80] 'からない' --> ' [UNK] '", - "replace text[34:35] --> decoded_text[81:88] 'の' --> ' [UNK] '", - "replace text[36:38] --> decoded_text[89:96] 'さな' --> ' [UNK] '", - "replace text[39:48] --> decoded_text[97:116] 'を見つけてたんです' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 32, - "oov_ratio": 0.6530612244897959, - "oov_charset": "[\"は\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"よ\", \"く\", \"見\", \"な\", \"い\", \"と\", \"か\", \"ら\", \"さ\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\"]" - }, - { - "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", - "decoded_text": "[UNK] [UNK] 点 [UNK] 先 生 [UNK] 『 角 膜 [UNK] 』 [UNK] [UNK] 断 [UNK] 。", - "diff": [ - "replace text[0:3] --> decoded_text[0:12] 'その時' --> '[UNK] [UNK] '", - "replace text[4:5] --> decoded_text[13:20] 'で' --> ' [UNK] '", - "insert text[6:6] --> decoded_text[21:22] '' --> ' '", - "replace text[7:14] --> decoded_text[23:30] 'からはおそらく' --> ' [UNK] '", - "insert text[15:15] --> decoded_text[31:32] '' --> ' '", - "insert text[16:16] --> decoded_text[33:34] '' --> ' '", - "replace text[17:24] --> decoded_text[35:42] 'ジストロフィー' --> ' [UNK] '", - "replace text[25:32] --> decoded_text[43:56] 'であろうとの診' --> ' [UNK] [UNK] '", - "replace text[33:42] --> decoded_text[57:64] 'をもらっていました' --> ' [UNK] '" - ], - "n_oov_chars": 34, - "oov_ratio": 0.7906976744186046, - "oov_charset": "[\"そ\", \"の\", \"時\", \"で\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\"]" - }, - { - "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", - "decoded_text": "[UNK] [UNK] 合 [UNK] 年 程 経 [UNK] [UNK] 徐 [UNK] 、 少 [UNK] 大 [UNK]", - "diff": [ - "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '", - "replace text[7:9] --> decoded_text[13:20] 'は1' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[21:22] '' --> ' '", - "insert text[11:11] --> decoded_text[23:24] '' --> ' '", - "replace text[12:15] --> decoded_text[25:38] '過して' --> ' [UNK] [UNK] '", - "replace text[16:27] --> decoded_text[39:46] '々にではあるんですけど' --> ' [UNK] '", - "insert text[28:28] --> decoded_text[47:48] '' --> ' '", - "replace text[29:30] --> decoded_text[49:56] 'し' --> ' [UNK] '", - "replace text[31:43] --> decoded_text[57:63] 'きくなってきちゃいました' --> ' [UNK]'" - ], - "n_oov_chars": 33, - "oov_ratio": 0.7674418604651163, - "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"は\", \"過\", \"し\", \"て\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]" - }, - { - "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "decoded_text": "[UNK] 、 [UNK] 散 歩 仲 [UNK] [UNK] 指 摘 [UNK] 、 [UNK] 言 [UNK] 目 立 [UNK] 程 [UNK] 。", - "diff": [ - "replace text[0:2] --> decoded_text[0:6] 'ただ' --> '[UNK] '", - "replace text[3:8] --> decoded_text[7:14] 'これまでお' --> ' [UNK] '", - "insert text[9:9] --> decoded_text[15:16] '' --> ' '", - "insert text[10:10] --> decoded_text[17:18] '' --> ' '", - "replace text[11:15] --> decoded_text[19:32] '間からは' --> ' [UNK] [UNK] '", - "insert text[16:16] --> decoded_text[33:34] '' --> ' '", - "replace text[17:29] --> decoded_text[35:42] 'とかされたことはないので' --> ' [UNK] '", - "replace text[30:35] --> decoded_text[43:50] 'こちらから' --> ' [UNK] '", - "replace text[36:45] --> decoded_text[51:58] 'わなければそんなに' --> ' [UNK] '", - "insert text[46:46] --> decoded_text[59:60] '' --> ' '", - "replace text[47:48] --> decoded_text[61:68] 'つ' --> ' [UNK] '", - "replace text[49:59] --> decoded_text[69:76] 'ではないんですけどね' --> ' [UNK] '" - ], - "n_oov_chars": 48, - "oov_ratio": 0.8, - "oov_charset": "[\"た\", \"だ\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"間\", \"か\", \"ら\", \"は\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"つ\", \"す\", \"ど\", \"ね\"]" - }, - { - "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", - "decoded_text": "昔 [UNK] 酸 [UNK] 目 薬 [UNK] 処 方 [UNK] 、 [UNK] 効 [UNK] 事 [UNK] 。", - "diff": [ - "replace text[1:7] --> decoded_text[1:8] 'はヒアルロン' --> ' [UNK] '", - "replace text[8:9] --> decoded_text[9:16] 'の' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[17:18] '' --> ' '", - "replace text[11:14] --> decoded_text[19:26] 'なども' --> ' [UNK] '", - "insert text[15:15] --> decoded_text[27:28] '' --> ' '", - "replace text[16:25] --> decoded_text[29:36] 'されてたようですが' --> ' [UNK] '", - "replace text[26:29] --> decoded_text[37:44] 'これが' --> ' [UNK] '", - "replace text[30:31] --> decoded_text[45:52] 'く' --> ' [UNK] '", - "replace text[32:39] --> decoded_text[53:60] 'はないそうです' --> ' [UNK] '" - ], - "n_oov_chars": 30, - "oov_ratio": 0.75, - "oov_charset": "[\"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"の\", \"な\", \"ど\", \"も\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"こ\", \"く\", \"い\", \"そ\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "[UNK] 、 [UNK] 散 歩 [UNK] [UNK] [UNK] 。 [UNK] 花 [UNK] 分 咲 [UNK] 情 [UNK] [UNK] 今 回 [UNK] 取 [UNK] 入 [UNK] 。", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'なので' --> '[UNK] '", - "replace text[4:11] --> decoded_text[7:14] 'エルディとのお' --> ' [UNK] '", - "insert text[12:12] --> decoded_text[15:16] '' --> ' '", - "replace text[13:26] --> decoded_text[17:36] 'でも訪れたことがありません' --> ' [UNK] [UNK] [UNK] '", - "replace text[28:33] --> decoded_text[38:44] 'カタクリの' --> '[UNK] '", - "replace text[34:36] --> decoded_text[45:52] 'が5' --> ' [UNK] '", - "insert text[37:37] --> decoded_text[53:54] '' --> ' '", - "replace text[38:41] --> decoded_text[55:62] 'きとの' --> ' [UNK] '", - "replace text[42:45] --> decoded_text[63:76] '報から' --> ' [UNK] [UNK] '", - "insert text[46:46] --> decoded_text[77:78] '' --> ' '", - "replace text[47:54] --> decoded_text[79:86] 'コースの1つに' --> ' [UNK] '", - "replace text[55:56] --> decoded_text[87:94] 'り' --> ' [UNK] '", - "replace text[57:63] --> decoded_text[95:102] 'れてみました' --> ' [UNK] '" - ], - "n_oov_chars": 48, - "oov_ratio": 0.75, - "oov_charset": "[\"な\", \"の\", \"で\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"カ\", \"タ\", \"ク\", \"リ\", \"き\", \"報\", \"か\", \"ら\", \"コ\", \"ー\", \"ス\", \"つ\", \"に\", \"て\", \"み\", \"し\"]" - }, - { - "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", - "decoded_text": "前 [UNK] 走 [UNK] 、 [UNK] [UNK] 上 部 [UNK] 学 生 [UNK] 駆 [UNK] 抜 [UNK] 目 [UNK] 当 [UNK]", - "diff": [ - "replace text[1:4] --> decoded_text[1:8] '々から' --> ' [UNK] '", - "replace text[5:16] --> decoded_text[9:16] 'ってみたかったんだけど' --> ' [UNK] '", - "replace text[17:21] --> decoded_text[17:30] 'いつも陸' --> ' [UNK] [UNK] '", - "insert text[22:22] --> decoded_text[31:32] '' --> ' '", - "replace text[23:26] --> decoded_text[33:40] 'らしき' --> ' [UNK] '", - "insert text[27:27] --> decoded_text[41:42] '' --> ' '", - "replace text[28:41] --> decoded_text[43:50] 'さんがものすごいスピードで' --> ' [UNK] '", - "replace text[42:43] --> decoded_text[51:58] 'け' --> ' [UNK] '", - "replace text[44:50] --> decoded_text[59:66] 'けていくのを' --> ' [UNK] '", - "replace text[51:52] --> decoded_text[67:74] 'の' --> ' [UNK] '", - "replace text[53:71] --> decoded_text[75:81] 'たりにしてちょっとビビっておりました' --> ' [UNK]'" - ], - "n_oov_chars": 59, - "oov_ratio": 0.8309859154929577, - "oov_charset": "[\"か\", \"ら\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"い\", \"つ\", \"も\", \"陸\", \"し\", \"き\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"く\", \"を\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午 [UNK] [UNK] 雨 [UNK] 心 配 [UNK] [UNK] 出 [UNK] 、 『 [UNK] 』 [UNK] 走 [UNK] 来 [UNK] !", + "diff": [ + "replace text[1:4] --> decoded_text[1:14] '後から' --> ' [UNK] [UNK] '", + "replace text[5:6] --> decoded_text[15:22] 'が' --> ' [UNK] '", + "insert text[7:7] --> decoded_text[23:24] '' --> ' '", + "replace text[8:14] --> decoded_text[25:38] 'だったので遠' --> ' [UNK] [UNK] '", + "replace text[15:18] --> decoded_text[39:46] 'はせず' --> ' [UNK] '", + "insert text[19:19] --> decoded_text[47:48] '' --> ' '", + "replace text[20:27] --> decoded_text[49:56] 'ふれあいロード' --> ' [UNK] '", + "replace text[28:29] --> decoded_text[57:64] 'を' --> ' [UNK] '", + "replace text[30:32] --> decoded_text[65:72] 'って' --> ' [UNK] '", + "replace text[33:36] --> decoded_text[73:80] 'ました' --> ' [UNK] '" + ], + "n_oov_chars": 26, + "oov_ratio": 0.7027027027027027, + "oov_charset": "[\"後\", \"か\", \"ら\", \"が\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"は\", \"せ\", \"ず\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"を\", \"て\", \"ま\", \"し\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "[UNK] 実 [UNK] 春 [UNK] 近 [UNK] 肌 [UNK] 感 [UNK] 出 来 [UNK] 着 [UNK] 整 [UNK] [UNK] 圏 央 道 [UNK] 越 [UNK] 世 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 来 [UNK] 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '確' --> '[UNK] '", + "replace text[2:3] --> decoded_text[7:14] 'に' --> ' [UNK] '", + "replace text[4:5] --> decoded_text[15:22] 'が' --> ' [UNK] '", + "replace text[6:13] --> decoded_text[23:30] 'づいてることを' --> ' [UNK] '", + "replace text[14:15] --> decoded_text[31:38] 'で' --> ' [UNK] '", + "replace text[16:21] --> decoded_text[39:46] 'じることが' --> ' [UNK] '", + "insert text[22:22] --> decoded_text[47:48] '' --> ' '", + "replace text[23:26] --> decoded_text[49:55] 'ました' --> ' [UNK]'", + "replace text[28:30] --> decoded_text[57:64] '々と' --> ' [UNK] '", + "replace text[31:36] --> decoded_text[65:78] '備されてる' --> ' [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[79:80] '' --> ' '", + "insert text[38:38] --> decoded_text[81:82] '' --> ' '", + "replace text[39:40] --> decoded_text[83:90] 'を' --> ' [UNK] '", + "replace text[41:45] --> decoded_text[91:98] 'えるとお' --> ' [UNK] '", + "replace text[46:62] --> decoded_text[99:136] '話になってるボウリング場が見えて' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[63:66] --> decoded_text[137:144] 'ました' --> ' [UNK] '" + ], + "n_oov_chars": 49, + "oov_ratio": 0.7313432835820896, + "oov_charset": "[\"確\", \"に\", \"が\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"で\", \"じ\", \"ま\", \"し\", \"た\", \"備\", \"さ\", \"れ\", \"え\", \"お\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] 〜 〜 、 私 [UNK] 途 中 [UNK] 行 [UNK] 、 通 [UNK] 道 [UNK] 変 更 [UNK] 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '", + "insert text[3:3] --> decoded_text[7:8] '' --> ' '", + "insert text[4:4] --> decoded_text[9:10] '' --> ' '", + "insert text[5:5] --> decoded_text[11:12] '' --> ' '", + "replace text[6:7] --> decoded_text[13:20] 'が' --> ' [UNK] '", + "insert text[8:8] --> decoded_text[21:22] '' --> ' '", + "replace text[9:14] --> decoded_text[23:30] 'でトイレに' --> ' [UNK] '", + "replace text[15:24] --> decoded_text[31:38] 'きたくなってしまい' --> ' [UNK] '", + "insert text[25:25] --> decoded_text[39:40] '' --> ' '", + "replace text[26:27] --> decoded_text[41:48] 'り' --> ' [UNK] '", + "replace text[28:36] --> decoded_text[49:56] 'にあったケンタに' --> ' [UNK] '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "replace text[38:45] --> decoded_text[59:66] 'しちゃいました' --> ' [UNK] '" + ], + "n_oov_chars": 33, + "oov_ratio": 0.717391304347826, + "oov_charset": "[\"う\", \"ぅ\", \"が\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"り\", \"あ\", \"ケ\", \"ン\", \"タ\", \"ち\", \"ゃ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実 [UNK] 、 1 年 程 前 [UNK] 右 目 [UNK] 黒 目 [UNK] 端 [UNK] 〜 [UNK] [UNK] [UNK] 分 [UNK] 程 [UNK] 小 [UNK] 斑 [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[1:2] --> decoded_text[1:8] 'は' --> ' [UNK] '", + "insert text[3:3] --> decoded_text[9:10] '' --> ' '", + "insert text[4:4] --> decoded_text[11:12] '' --> ' '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "replace text[7:13] --> decoded_text[17:24] 'にエルモサの' --> ' [UNK] '", + "insert text[14:14] --> decoded_text[25:26] '' --> ' '", + "replace text[15:16] --> decoded_text[27:34] 'の' --> ' [UNK] '", + "insert text[17:17] --> decoded_text[35:36] '' --> ' '", + "replace text[18:19] --> decoded_text[37:44] 'の' --> ' [UNK] '", + "replace text[20:22] --> decoded_text[45:52] 'によ' --> ' [UNK] '", + "replace text[23:28] --> decoded_text[53:72] 'く見ないと' --> ' [UNK] [UNK] [UNK] '", + "replace text[29:33] --> decoded_text[73:80] 'からない' --> ' [UNK] '", + "replace text[34:35] --> decoded_text[81:88] 'の' --> ' [UNK] '", + "replace text[36:38] --> decoded_text[89:96] 'さな' --> ' [UNK] '", + "replace text[39:48] --> decoded_text[97:116] 'を見つけてたんです' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 32, + "oov_ratio": 0.6530612244897959, + "oov_charset": "[\"は\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"よ\", \"く\", \"見\", \"な\", \"い\", \"と\", \"か\", \"ら\", \"さ\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "[UNK] [UNK] 点 [UNK] 先 生 [UNK] 『 角 膜 [UNK] 』 [UNK] [UNK] 断 [UNK] 。", + "diff": [ + "replace text[0:3] --> decoded_text[0:12] 'その時' --> '[UNK] [UNK] '", + "replace text[4:5] --> decoded_text[13:20] 'で' --> ' [UNK] '", + "insert text[6:6] --> decoded_text[21:22] '' --> ' '", + "replace text[7:14] --> decoded_text[23:30] 'からはおそらく' --> ' [UNK] '", + "insert text[15:15] --> decoded_text[31:32] '' --> ' '", + "insert text[16:16] --> decoded_text[33:34] '' --> ' '", + "replace text[17:24] --> decoded_text[35:42] 'ジストロフィー' --> ' [UNK] '", + "replace text[25:32] --> decoded_text[43:56] 'であろうとの診' --> ' [UNK] [UNK] '", + "replace text[33:42] --> decoded_text[57:64] 'をもらっていました' --> ' [UNK] '" + ], + "n_oov_chars": 34, + "oov_ratio": 0.7906976744186046, + "oov_charset": "[\"そ\", \"の\", \"時\", \"で\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "[UNK] [UNK] 合 [UNK] 年 程 経 [UNK] [UNK] 徐 [UNK] 、 少 [UNK] 大 [UNK]", + "diff": [ + "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '", + "replace text[7:9] --> decoded_text[13:20] 'は1' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[21:22] '' --> ' '", + "insert text[11:11] --> decoded_text[23:24] '' --> ' '", + "replace text[12:15] --> decoded_text[25:38] '過して' --> ' [UNK] [UNK] '", + "replace text[16:27] --> decoded_text[39:46] '々にではあるんですけど' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[47:48] '' --> ' '", + "replace text[29:30] --> decoded_text[49:56] 'し' --> ' [UNK] '", + "replace text[31:43] --> decoded_text[57:63] 'きくなってきちゃいました' --> ' [UNK]'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.7674418604651163, + "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"は\", \"過\", \"し\", \"て\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "[UNK] 、 [UNK] 散 歩 仲 [UNK] [UNK] 指 摘 [UNK] 、 [UNK] 言 [UNK] 目 立 [UNK] 程 [UNK] 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] 'ただ' --> '[UNK] '", + "replace text[3:8] --> decoded_text[7:14] 'これまでお' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[15:16] '' --> ' '", + "insert text[10:10] --> decoded_text[17:18] '' --> ' '", + "replace text[11:15] --> decoded_text[19:32] '間からは' --> ' [UNK] [UNK] '", + "insert text[16:16] --> decoded_text[33:34] '' --> ' '", + "replace text[17:29] --> decoded_text[35:42] 'とかされたことはないので' --> ' [UNK] '", + "replace text[30:35] --> decoded_text[43:50] 'こちらから' --> ' [UNK] '", + "replace text[36:45] --> decoded_text[51:58] 'わなければそんなに' --> ' [UNK] '", + "insert text[46:46] --> decoded_text[59:60] '' --> ' '", + "replace text[47:48] --> decoded_text[61:68] 'つ' --> ' [UNK] '", + "replace text[49:59] --> decoded_text[69:76] 'ではないんですけどね' --> ' [UNK] '" + ], + "n_oov_chars": 48, + "oov_ratio": 0.8, + "oov_charset": "[\"た\", \"だ\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"間\", \"か\", \"ら\", \"は\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"つ\", \"す\", \"ど\", \"ね\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔 [UNK] 酸 [UNK] 目 薬 [UNK] 処 方 [UNK] 、 [UNK] 効 [UNK] 事 [UNK] 。", + "diff": [ + "replace text[1:7] --> decoded_text[1:8] 'はヒアルロン' --> ' [UNK] '", + "replace text[8:9] --> decoded_text[9:16] 'の' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[17:18] '' --> ' '", + "replace text[11:14] --> decoded_text[19:26] 'なども' --> ' [UNK] '", + "insert text[15:15] --> decoded_text[27:28] '' --> ' '", + "replace text[16:25] --> decoded_text[29:36] 'されてたようですが' --> ' [UNK] '", + "replace text[26:29] --> decoded_text[37:44] 'これが' --> ' [UNK] '", + "replace text[30:31] --> decoded_text[45:52] 'く' --> ' [UNK] '", + "replace text[32:39] --> decoded_text[53:60] 'はないそうです' --> ' [UNK] '" + ], + "n_oov_chars": 30, + "oov_ratio": 0.75, + "oov_charset": "[\"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"の\", \"な\", \"ど\", \"も\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"こ\", \"く\", \"い\", \"そ\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "[UNK] 、 [UNK] 散 歩 [UNK] [UNK] [UNK] 。 [UNK] 花 [UNK] 分 咲 [UNK] 情 [UNK] [UNK] 今 回 [UNK] 取 [UNK] 入 [UNK] 。", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'なので' --> '[UNK] '", + "replace text[4:11] --> decoded_text[7:14] 'エルディとのお' --> ' [UNK] '", + "insert text[12:12] --> decoded_text[15:16] '' --> ' '", + "replace text[13:26] --> decoded_text[17:36] 'でも訪れたことがありません' --> ' [UNK] [UNK] [UNK] '", + "replace text[28:33] --> decoded_text[38:44] 'カタクリの' --> '[UNK] '", + "replace text[34:36] --> decoded_text[45:52] 'が5' --> ' [UNK] '", + "insert text[37:37] --> decoded_text[53:54] '' --> ' '", + "replace text[38:41] --> decoded_text[55:62] 'きとの' --> ' [UNK] '", + "replace text[42:45] --> decoded_text[63:76] '報から' --> ' [UNK] [UNK] '", + "insert text[46:46] --> decoded_text[77:78] '' --> ' '", + "replace text[47:54] --> decoded_text[79:86] 'コースの1つに' --> ' [UNK] '", + "replace text[55:56] --> decoded_text[87:94] 'り' --> ' [UNK] '", + "replace text[57:63] --> decoded_text[95:102] 'れてみました' --> ' [UNK] '" + ], + "n_oov_chars": 48, + "oov_ratio": 0.75, + "oov_charset": "[\"な\", \"の\", \"で\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"カ\", \"タ\", \"ク\", \"リ\", \"き\", \"報\", \"か\", \"ら\", \"コ\", \"ー\", \"ス\", \"つ\", \"に\", \"て\", \"み\", \"し\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前 [UNK] 走 [UNK] 、 [UNK] [UNK] 上 部 [UNK] 学 生 [UNK] 駆 [UNK] 抜 [UNK] 目 [UNK] 当 [UNK]", + "diff": [ + "replace text[1:4] --> decoded_text[1:8] '々から' --> ' [UNK] '", + "replace text[5:16] --> decoded_text[9:16] 'ってみたかったんだけど' --> ' [UNK] '", + "replace text[17:21] --> decoded_text[17:30] 'いつも陸' --> ' [UNK] [UNK] '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "replace text[23:26] --> decoded_text[33:40] 'らしき' --> ' [UNK] '", + "insert text[27:27] --> decoded_text[41:42] '' --> ' '", + "replace text[28:41] --> decoded_text[43:50] 'さんがものすごいスピードで' --> ' [UNK] '", + "replace text[42:43] --> decoded_text[51:58] 'け' --> ' [UNK] '", + "replace text[44:50] --> decoded_text[59:66] 'けていくのを' --> ' [UNK] '", + "replace text[51:52] --> decoded_text[67:74] 'の' --> ' [UNK] '", + "replace text[53:71] --> decoded_text[75:81] 'たりにしてちょっとビビっておりました' --> ' [UNK]'" + ], + "n_oov_chars": 59, + "oov_ratio": 0.8309859154929577, + "oov_charset": "[\"か\", \"ら\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"い\", \"つ\", \"も\", \"陸\", \"し\", \"き\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"く\", \"を\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json index ae41660b800363cc1d350759ca207db9646bef99..44d2d63677d452fa4b51ec75d385fc86da27b826 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json @@ -1,258 +1,258 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ home > [UNK]", - "diff": [ - "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", - "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.6666666666666666, - "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'", - "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "delete text[9:12] --> decoded_text[16:16] '17번' --> ''", - "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'", - "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'", - "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'", - "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", - "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", - "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", - "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", - "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'", - "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'", - "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'", - "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'", - "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", - "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", - "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'", - "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'", - "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'", - "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'", - "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'", - "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'", - "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'", - "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"", - "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'", - "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'", - "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'", - "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'", - "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'", - "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'", - "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'", - "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'", - "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'", - "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'", - "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'", - "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'", - "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'", - "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", - "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", - "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", - "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'", - "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '", - "insert text[22:22] --> decoded_text[31:32] '' --> ' '", - "delete text[24:26] --> decoded_text[34:34] ')는' --> ''", - "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''", - "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '", - "insert text[56:56] --> decoded_text[79:80] '' --> ' '", - "insert text[59:59] --> decoded_text[83:84] '' --> '.'", - "delete text[60:61] --> decoded_text[85:85] '.' --> ''", - "insert text[64:64] --> decoded_text[88:89] '' --> '.'", - "delete text[65:66] --> decoded_text[90:90] '.' --> ''", - "insert text[69:69] --> decoded_text[93:94] '' --> ' '", - "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'", - "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'", - "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'", - "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'", - "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'", - "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'", - "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'", - "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'", - "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'", - "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'", - "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'", - "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'", - "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'", - "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'", - "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'", - "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '", - "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '", - "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''", - "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'", - "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'", - "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'", - "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'", - "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'", - "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'", - "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'", - "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'", - "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'", - "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '", - "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '", - "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '", - "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''", - "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'", - "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'", - "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 66, - "oov_ratio": 0.5945945945945946, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", - "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'", - "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'", - "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'", - "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'", - "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'", - "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'", - "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'", - "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'", - "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'", - "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'", - "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'", - "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'", - "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'", - "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'", - "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", - "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'", - "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"", - "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'", - "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'", - "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", - "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'", - "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'" - ], - "n_oov_chars": 101, - "oov_ratio": 0.9439252336448598, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'", - "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'", - "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'", - "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'", - "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'", - "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'", - "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'", - "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'", - "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'", - "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'", - "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'", - "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'", - "delete text[58:59] --> decoded_text[75:75] '빅' --> ''", - "replace text[60:65] --> decoded_text[76:81] '사이닝’을' --> '[UNK]'", - "replace text[66:68] --> decoded_text[82:87] '통해' --> '[UNK]'", - "replace text[69:74] --> decoded_text[88:93] '유벤투스로' --> '[UNK]'", - "replace text[75:78] --> decoded_text[94:99] '옮겼기' --> '[UNK]'", - "replace text[79:83] --> decoded_text[100:123] '때문이다' --> '[UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 63, - "oov_ratio": 0.75, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", - "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'", - "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'", - "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'", - "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'", - "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'", - "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'" - ], - "n_oov_chars": 39, - "oov_ratio": 0.975, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'", - "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'", - "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'", - "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'", - "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'", - "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'", - "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'", - "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'", - "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'", - "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'", - "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'", - "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'", - "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'", - "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'", - "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'", - "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'", - "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'", - "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'", - "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'", - "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'", - "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'", - "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'", - "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'", - "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'", - "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'" - ], - "n_oov_chars": 95, - "oov_ratio": 0.9693877551020408, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > [UNK]", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'", + "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "delete text[9:12] --> decoded_text[16:16] '17번' --> ''", + "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'", + "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'", + "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'", + "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", + "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", + "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", + "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", + "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'", + "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'", + "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'", + "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'", + "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", + "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'", + "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'", + "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"", + "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'", + "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'", + "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'", + "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'", + "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'", + "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'", + "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'", + "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'", + "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'", + "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'", + "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'", + "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", + "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", + "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "delete text[24:26] --> decoded_text[34:34] ')는' --> ''", + "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''", + "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '", + "insert text[56:56] --> decoded_text[79:80] '' --> ' '", + "insert text[59:59] --> decoded_text[83:84] '' --> '.'", + "delete text[60:61] --> decoded_text[85:85] '.' --> ''", + "insert text[64:64] --> decoded_text[88:89] '' --> '.'", + "delete text[65:66] --> decoded_text[90:90] '.' --> ''", + "insert text[69:69] --> decoded_text[93:94] '' --> ' '", + "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'", + "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'", + "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'", + "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'", + "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'", + "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'", + "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'", + "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'", + "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'", + "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'", + "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'", + "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'", + "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'", + "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'", + "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'", + "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '", + "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '", + "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''", + "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'", + "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'", + "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'", + "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'", + "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'", + "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'", + "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'", + "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'", + "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '", + "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '", + "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '", + "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''", + "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'", + "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'", + "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'", + "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'", + "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'", + "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'", + "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'", + "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'", + "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'", + "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'", + "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"", + "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'", + "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'", + "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", + "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'", + "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'" + ], + "n_oov_chars": 101, + "oov_ratio": 0.9439252336448598, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'", + "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'", + "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'", + "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'", + "delete text[58:59] --> decoded_text[75:75] '빅' --> ''", + "replace text[60:65] --> decoded_text[76:81] '사이닝’을' --> '[UNK]'", + "replace text[66:68] --> decoded_text[82:87] '통해' --> '[UNK]'", + "replace text[69:74] --> decoded_text[88:93] '유벤투스로' --> '[UNK]'", + "replace text[75:78] --> decoded_text[94:99] '옮겼기' --> '[UNK]'", + "replace text[79:83] --> decoded_text[100:123] '때문이다' --> '[UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 63, + "oov_ratio": 0.75, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'", + "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'", + "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'" + ], + "n_oov_chars": 39, + "oov_ratio": 0.975, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'", + "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'", + "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'", + "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'", + "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'", + "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'", + "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'", + "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'" + ], + "n_oov_chars": 95, + "oov_ratio": 0.9693877551020408, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json index 8d58260a4848cdec02d70a01030442661b551d1a..29c3c5208f755ee2fe74a28720cd618cd4251ccb 100644 --- a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json @@ -1,1120 +1,1120 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[26:26] --> decoded_text[37:38] '' --> ' '", - "insert text[29:29] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[43:44] '' --> ' '", - "insert text[31:31] --> decoded_text[45:46] '' --> ' '", - "replace text[32:33] --> decoded_text[47:54] '・' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[55:56] '' --> ' '", - "insert text[35:35] --> decoded_text[57:58] '' --> ' '", - "insert text[36:36] --> decoded_text[59:60] '' --> ' '", - "insert text[37:37] --> decoded_text[61:62] '' --> ' '", - "insert text[41:41] --> decoded_text[66:67] '' --> ' '", - "insert text[42:42] --> decoded_text[68:69] '' --> ' '", - "insert text[43:43] --> decoded_text[70:71] '' --> ' '", - "insert text[44:44] --> decoded_text[72:73] '' --> ' '", - "insert text[45:45] --> decoded_text[74:75] '' --> ' '", - "insert text[46:46] --> decoded_text[76:77] '' --> ' '", - "replace text[47:48] --> decoded_text[78:81] '车' --> ' 车 '", - "insert text[49:49] --> decoded_text[82:83] '' --> ' '", - "insert text[50:50] --> decoded_text[84:85] '' --> ' '", - "insert text[51:51] --> decoded_text[86:87] '' --> ' '", - "insert text[52:52] --> decoded_text[88:89] '' --> ' '", - "insert text[53:53] --> decoded_text[90:91] '' --> ' '", - "insert text[54:54] --> decoded_text[92:93] '' --> ' '", - "insert text[55:55] --> decoded_text[94:95] '' --> ' '", - "insert text[56:56] --> decoded_text[96:97] '' --> ' '", - "replace text[57:58] --> decoded_text[98:101] ',' --> ' , '", - "insert text[59:59] --> decoded_text[102:103] '' --> ' '", - "insert text[60:60] --> decoded_text[104:105] '' --> ' '", - "insert text[61:61] --> decoded_text[106:107] '' --> ' '", - "insert text[62:62] --> decoded_text[108:109] '' --> ' '", - "insert text[63:63] --> decoded_text[110:111] '' --> ' '", - "insert text[64:64] --> decoded_text[112:113] '' --> ' '", - "insert text[65:65] --> decoded_text[114:115] '' --> ' '", - "insert text[66:66] --> decoded_text[116:117] '' --> ' '", - "insert text[67:67] --> decoded_text[118:119] '' --> ' '", - "insert text[68:68] --> decoded_text[120:121] '' --> ' '", - "insert text[69:69] --> decoded_text[122:123] '' --> ' '", - "insert text[70:70] --> decoded_text[124:125] '' --> ' '", - "insert text[71:71] --> decoded_text[126:127] '' --> ' '", - "insert text[72:72] --> decoded_text[128:129] '' --> ' '", - "insert text[73:73] --> decoded_text[130:131] '' --> ' '", - "insert text[74:74] --> decoded_text[132:133] '' --> ' '", - "insert text[75:75] --> decoded_text[134:135] '' --> ' '", - "insert text[76:76] --> decoded_text[136:137] '' --> ' '", - "insert text[77:77] --> decoded_text[138:139] '' --> ' '", - "insert text[78:78] --> decoded_text[140:141] '' --> ' '", - "insert text[79:79] --> decoded_text[142:143] '' --> ' '", - "replace text[80:81] --> decoded_text[144:147] '的' --> ' 的 '", - "insert text[82:82] --> decoded_text[148:149] '' --> ' '", - "insert text[83:83] --> decoded_text[150:151] '' --> ' '", - "insert text[84:84] --> decoded_text[152:153] '' --> ' '", - "insert text[85:85] --> decoded_text[154:155] '' --> ' '", - "insert text[86:86] --> decoded_text[156:157] '' --> ' '", - "insert text[87:87] --> decoded_text[158:159] '' --> ' '", - "insert text[88:88] --> decoded_text[160:161] '' --> ' '", - "insert text[89:89] --> decoded_text[162:163] '' --> ' '", - "insert text[90:90] --> decoded_text[164:165] '' --> ' '", - "replace text[91:92] --> decoded_text[166:169] '的' --> ' 的 '", - "insert text[93:93] --> decoded_text[170:171] '' --> ' '", - "insert text[94:94] --> decoded_text[172:173] '' --> ' '", - "replace text[95:96] --> decoded_text[174:177] ',' --> ' , '", - "insert text[97:97] --> decoded_text[178:179] '' --> ' '", - "insert text[98:98] --> decoded_text[180:181] '' --> ' '", - "insert text[99:99] --> decoded_text[182:183] '' --> ' '", - "insert text[100:100] --> decoded_text[184:185] '' --> ' '", - "replace text[101:102] --> decoded_text[186:189] '车' --> ' 车 '", - "insert text[103:103] --> decoded_text[190:191] '' --> ' '", - "insert text[104:104] --> decoded_text[192:193] '' --> ' '", - "insert text[105:105] --> decoded_text[194:195] '' --> ' '", - "insert text[106:106] --> decoded_text[196:197] '' --> ' '", - "insert text[107:107] --> decoded_text[198:199] '' --> ' '", - "insert text[108:108] --> decoded_text[200:201] '' --> ' '", - "replace text[109:110] --> decoded_text[202:205] '的' --> ' 的 '", - "insert text[111:111] --> decoded_text[206:207] '' --> ' '", - "insert text[112:112] --> decoded_text[208:209] '' --> ' '", - "replace text[113:114] --> decoded_text[210:213] ',' --> ' , '", - "insert text[115:115] --> decoded_text[214:215] '' --> ' '", - "insert text[116:116] --> decoded_text[216:217] '' --> ' '", - "insert text[117:117] --> decoded_text[218:219] '' --> ' '", - "insert text[118:118] --> decoded_text[220:221] '' --> ' '", - "insert text[119:119] --> decoded_text[222:223] '' --> ' '", - "insert text[120:120] --> decoded_text[224:225] '' --> ' '", - "insert text[121:121] --> decoded_text[226:227] '' --> ' '", - "insert text[122:122] --> decoded_text[228:229] '' --> ' '", - "insert text[123:123] --> decoded_text[230:231] '' --> ' '", - "insert text[124:124] --> decoded_text[232:233] '' --> ' '", - "insert text[125:125] --> decoded_text[234:235] '' --> ' '", - "insert text[126:126] --> decoded_text[236:237] '' --> ' '", - "insert text[127:127] --> decoded_text[238:239] '' --> ' '", - "insert text[128:128] --> decoded_text[240:241] '' --> ' '", - "insert text[129:129] --> decoded_text[242:243] '' --> ' '", - "replace text[130:131] --> decoded_text[244:247] '车' --> ' 车 '", - "replace text[132:133] --> decoded_text[248:250] 'S' --> 's '", - "insert text[134:134] --> decoded_text[251:252] '' --> ' '", - "insert text[135:135] --> decoded_text[253:254] '' --> ' '", - "replace text[136:137] --> decoded_text[255:258] ',' --> ' , '", - "insert text[138:138] --> decoded_text[259:260] '' --> ' '", - "insert text[139:139] --> decoded_text[261:262] '' --> ' '", - "insert text[140:140] --> decoded_text[263:264] '' --> ' '", - "replace text[141:142] --> decoded_text[265:268] '车' --> ' 车 '", - "insert text[143:143] --> decoded_text[269:270] '' --> ' '", - "insert text[144:144] --> decoded_text[271:272] '' --> ' '", - "replace text[145:146] --> decoded_text[273:276] '车' --> ' 车 '", - "insert text[147:147] --> decoded_text[277:278] '' --> ' '", - "replace text[148:149] --> decoded_text[279:282] ',' --> ' , '", - "insert text[150:150] --> decoded_text[283:284] '' --> ' '", - "insert text[151:151] --> decoded_text[285:286] '' --> ' '", - "insert text[152:152] --> decoded_text[287:288] '' --> ' '", - "replace text[153:154] --> decoded_text[289:292] '车' --> ' 车 '", - "insert text[155:155] --> decoded_text[293:294] '' --> ' '", - "insert text[156:156] --> decoded_text[295:296] '' --> ' '", - "insert text[157:157] --> decoded_text[297:298] '' --> ' '", - "insert text[158:158] --> decoded_text[299:300] '' --> ' '", - "insert text[159:159] --> decoded_text[301:302] '' --> ' '", - "insert text[163:163] --> decoded_text[306:307] '' --> ' '", - "insert text[164:164] --> decoded_text[308:309] '' --> ' '", - "insert text[165:165] --> decoded_text[310:311] '' --> ' '", - "insert text[166:166] --> decoded_text[312:313] '' --> ' '", - "insert text[167:167] --> decoded_text[314:315] '' --> ' '", - "replace text[168:169] --> decoded_text[316:319] ',' --> ' , '", - "insert text[170:170] --> decoded_text[320:321] '' --> ' '", - "replace text[171:173] --> decoded_text[322:327] '的车' --> ' 的 车 '", - "insert text[174:174] --> decoded_text[328:329] '' --> ' '", - "insert text[175:175] --> decoded_text[330:331] '' --> ' '", - "insert text[176:176] --> decoded_text[332:333] '' --> ' '", - "insert text[177:177] --> decoded_text[334:335] '' --> ' '", - "insert text[178:178] --> decoded_text[336:337] '' --> ' '", - "insert text[179:179] --> decoded_text[338:339] '' --> ' '", - "insert text[180:180] --> decoded_text[340:341] '' --> ' '", - "insert text[181:181] --> decoded_text[342:343] '' --> ' '", - "insert text[182:182] --> decoded_text[344:345] '' --> ' '", - "replace text[183:184] --> decoded_text[346:349] ',' --> ' , '", - "insert text[185:185] --> decoded_text[350:351] '' --> ' '", - "insert text[186:186] --> decoded_text[352:353] '' --> ' '", - "insert text[187:187] --> decoded_text[354:355] '' --> ' '", - "insert text[188:188] --> decoded_text[356:357] '' --> ' '", - "replace text[189:190] --> decoded_text[358:361] '的' --> ' 的 '", - "insert text[191:191] --> decoded_text[362:363] '' --> ' '", - "insert text[192:192] --> decoded_text[364:365] '' --> ' '", - "insert text[193:193] --> decoded_text[366:367] '' --> ' '", - "insert text[194:194] --> decoded_text[368:369] '' --> ' '", - "insert text[195:195] --> decoded_text[370:371] '' --> ' '", - "insert text[196:196] --> decoded_text[372:373] '' --> ' '", - "insert text[206:206] --> decoded_text[383:384] '' --> ' '", - "insert text[207:207] --> decoded_text[385:386] '' --> ' '", - "insert text[211:211] --> decoded_text[390:391] '' --> ' '", - "insert text[212:212] --> decoded_text[392:393] '' --> ' '", - "insert text[213:213] --> decoded_text[394:395] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.009345794392523364, - "oov_charset": "[\"・\", \"S\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '", - "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "insert text[91:91] --> decoded_text[181:182] '' --> ' '", - "insert text[92:92] --> decoded_text[183:184] '' --> ' '", - "insert text[93:93] --> decoded_text[185:186] '' --> ' '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", - "insert text[101:101] --> decoded_text[201:202] '' --> ' '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "insert text[107:107] --> decoded_text[213:214] '' --> ' '", - "insert text[108:108] --> decoded_text[215:216] '' --> ' '", - "insert text[109:109] --> decoded_text[217:218] '' --> ' '", - "insert text[110:110] --> decoded_text[219:220] '' --> ' '", - "insert text[111:111] --> decoded_text[221:222] '' --> ' '", - "insert text[112:112] --> decoded_text[223:224] '' --> ' '", - "insert text[113:113] --> decoded_text[225:226] '' --> ' '", - "insert text[114:114] --> decoded_text[227:228] '' --> ' '", - "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", - "insert text[117:117] --> decoded_text[233:234] '' --> ' '", - "insert text[118:118] --> decoded_text[235:236] '' --> ' '", - "insert text[119:119] --> decoded_text[237:238] '' --> ' '", - "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", - "insert text[122:122] --> decoded_text[243:244] '' --> ' '", - "insert text[123:123] --> decoded_text[245:246] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "insert text[50:50] --> decoded_text[96:97] '' --> ' '", - "insert text[51:51] --> decoded_text[98:99] '' --> ' '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "insert text[61:61] --> decoded_text[118:119] '' --> ' '", - "insert text[62:62] --> decoded_text[120:121] '' --> ' '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "insert text[70:70] --> decoded_text[136:137] '' --> ' '", - "insert text[71:71] --> decoded_text[138:139] '' --> ' '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "insert text[5:5] --> decoded_text[8:9] '' --> ' '", - "insert text[6:6] --> decoded_text[10:11] '' --> ' '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "insert text[9:9] --> decoded_text[16:17] '' --> ' '", - "insert text[10:10] --> decoded_text[18:19] '' --> ' '", - "insert text[11:11] --> decoded_text[20:21] '' --> ' '", - "insert text[12:12] --> decoded_text[22:23] '' --> ' '", - "insert text[13:13] --> decoded_text[24:25] '' --> ' '", - "insert text[14:14] --> decoded_text[26:27] '' --> ' '", - "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", - "insert text[17:17] --> decoded_text[32:33] '' --> ' '", - "insert text[18:18] --> decoded_text[34:35] '' --> ' '", - "insert text[19:19] --> decoded_text[36:37] '' --> ' '", - "insert text[20:20] --> decoded_text[38:39] '' --> ' '", - "insert text[21:21] --> decoded_text[40:41] '' --> ' '", - "insert text[22:22] --> decoded_text[42:43] '' --> ' '", - "insert text[23:23] --> decoded_text[44:45] '' --> ' '", - "insert text[24:24] --> decoded_text[46:47] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[32:32] --> decoded_text[61:62] '' --> ' '", - "insert text[33:33] --> decoded_text[63:64] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", - "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", - "insert text[72:72] --> decoded_text[132:133] '' --> ' '", - "insert text[73:73] --> decoded_text[134:135] '' --> ' '", - "insert text[74:74] --> decoded_text[136:137] '' --> ' '", - "insert text[75:75] --> decoded_text[138:139] '' --> ' '", - "insert text[76:76] --> decoded_text[140:141] '' --> ' '", - "insert text[77:77] --> decoded_text[142:143] '' --> ' '", - "insert text[78:78] --> decoded_text[144:145] '' --> ' '", - "insert text[79:79] --> decoded_text[146:147] '' --> ' '", - "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", - "insert text[82:82] --> decoded_text[152:153] '' --> ' '", - "insert text[83:83] --> decoded_text[154:155] '' --> ' '", - "insert text[84:84] --> decoded_text[156:157] '' --> ' '", - "insert text[85:85] --> decoded_text[158:159] '' --> ' '", - "insert text[86:86] --> decoded_text[160:161] '' --> ' '", - "insert text[87:87] --> decoded_text[162:163] '' --> ' '", - "insert text[88:88] --> decoded_text[164:165] '' --> ' '", - "insert text[89:89] --> decoded_text[166:167] '' --> ' '", - "insert text[90:90] --> decoded_text[168:169] '' --> ' '", - "insert text[91:91] --> decoded_text[170:171] '' --> ' '", - "insert text[92:92] --> decoded_text[172:173] '' --> ' '", - "insert text[93:93] --> decoded_text[174:175] '' --> ' '", - "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", - "insert text[96:96] --> decoded_text[180:181] '' --> ' '", - "insert text[97:97] --> decoded_text[182:183] '' --> ' '", - "insert text[98:98] --> decoded_text[184:185] '' --> ' '", - "insert text[99:99] --> decoded_text[186:187] '' --> ' '", - "insert text[100:100] --> decoded_text[188:189] '' --> ' '", - "insert text[101:101] --> decoded_text[190:191] '' --> ' '", - "insert text[102:102] --> decoded_text[192:193] '' --> ' '", - "insert text[103:103] --> decoded_text[194:195] '' --> ' '", - "insert text[104:104] --> decoded_text[196:197] '' --> ' '", - "insert text[105:105] --> decoded_text[198:199] '' --> ' '", - "insert text[106:106] --> decoded_text[200:201] '' --> ' '", - "insert text[107:107] --> decoded_text[202:203] '' --> ' '", - "insert text[108:108] --> decoded_text[204:205] '' --> ' '", - "insert text[109:109] --> decoded_text[206:207] '' --> ' '", - "insert text[110:110] --> decoded_text[208:209] '' --> ' '", - "insert text[111:111] --> decoded_text[210:211] '' --> ' '", - "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", - "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", - "insert text[124:124] --> decoded_text[225:226] '' --> ' '", - "insert text[125:125] --> decoded_text[227:228] '' --> ' '", - "insert text[126:126] --> decoded_text[229:230] '' --> ' '", - "insert text[127:127] --> decoded_text[231:232] '' --> ' '", - "insert text[128:128] --> decoded_text[233:234] '' --> ' '", - "insert text[129:129] --> decoded_text[235:236] '' --> ' '", - "insert text[130:130] --> decoded_text[237:238] '' --> ' '", - "insert text[131:131] --> decoded_text[239:240] '' --> ' '", - "insert text[132:132] --> decoded_text[241:242] '' --> ' '", - "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", - "insert text[135:135] --> decoded_text[247:248] '' --> ' '", - "insert text[136:136] --> decoded_text[249:250] '' --> ' '", - "insert text[137:137] --> decoded_text[251:252] '' --> ' '", - "insert text[138:138] --> decoded_text[253:254] '' --> ' '", - "insert text[139:139] --> decoded_text[255:256] '' --> ' '", - "insert text[140:140] --> decoded_text[257:258] '' --> ' '", - "insert text[141:141] --> decoded_text[259:260] '' --> ' '", - "insert text[142:142] --> decoded_text[261:262] '' --> ' '", - "insert text[143:143] --> decoded_text[263:264] '' --> ' '", - "insert text[144:144] --> decoded_text[265:266] '' --> ' '", - "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", - "insert text[147:147] --> decoded_text[271:272] '' --> ' '", - "insert text[148:148] --> decoded_text[273:274] '' --> ' '", - "insert text[149:149] --> decoded_text[275:276] '' --> ' '", - "insert text[150:150] --> decoded_text[277:278] '' --> ' '", - "insert text[151:151] --> decoded_text[279:280] '' --> ' '", - "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", - "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", - "insert text[162:162] --> decoded_text[292:293] '' --> ' '", - "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", - "insert text[165:165] --> decoded_text[298:299] '' --> ' '", - "insert text[166:166] --> decoded_text[300:301] '' --> ' '", - "insert text[167:167] --> decoded_text[302:303] '' --> ' '", - "insert text[168:168] --> decoded_text[304:305] '' --> ' '", - "insert text[169:169] --> decoded_text[306:307] '' --> ' '", - "insert text[170:170] --> decoded_text[308:309] '' --> ' '", - "insert text[171:171] --> decoded_text[310:311] '' --> ' '", - "insert text[172:172] --> decoded_text[312:313] '' --> ' '", - "insert text[173:173] --> decoded_text[314:315] '' --> ' '", - "insert text[174:174] --> decoded_text[316:317] '' --> ' '", - "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", - "insert text[185:185] --> decoded_text[329:330] '' --> ' '", - "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", - "insert text[188:188] --> decoded_text[335:336] '' --> ' '", - "insert text[189:189] --> decoded_text[337:338] '' --> ' '", - "insert text[190:190] --> decoded_text[339:340] '' --> ' '", - "insert text[191:191] --> decoded_text[341:342] '' --> ' '", - "insert text[192:192] --> decoded_text[343:344] '' --> ' '", - "insert text[193:193] --> decoded_text[345:346] '' --> ' '", - "insert text[194:194] --> decoded_text[347:348] '' --> ' '", - "insert text[195:195] --> decoded_text[349:350] '' --> ' '", - "insert text[196:196] --> decoded_text[351:352] '' --> ' '", - "insert text[197:197] --> decoded_text[353:354] '' --> ' '", - "insert text[198:198] --> decoded_text[355:356] '' --> ' '", - "insert text[199:199] --> decoded_text[357:358] '' --> ' '", - "insert text[200:200] --> decoded_text[359:360] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.03482587064676617, - "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[31:31] --> decoded_text[60:61] '' --> ' '", - "insert text[32:32] --> decoded_text[62:63] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "insert text[62:62] --> decoded_text[121:122] '' --> ' '", - "insert text[63:63] --> decoded_text[123:124] '' --> ' '", - "insert text[64:64] --> decoded_text[125:126] '' --> ' '", - "insert text[65:65] --> decoded_text[127:128] '' --> ' '", - "insert text[66:66] --> decoded_text[129:130] '' --> ' '", - "insert text[67:67] --> decoded_text[131:132] '' --> ' '", - "insert text[68:68] --> decoded_text[133:134] '' --> ' '", - "insert text[69:69] --> decoded_text[135:136] '' --> ' '", - "insert text[70:70] --> decoded_text[137:138] '' --> ' '", - "insert text[71:71] --> decoded_text[139:140] '' --> ' '", - "insert text[72:72] --> decoded_text[141:142] '' --> ' '", - "insert text[73:73] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '", - "insert text[78:78] --> decoded_text[152:153] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:3] --> decoded_text[3:10] '・' --> ' [UNK] '", - "insert text[4:4] --> decoded_text[11:12] '' --> ' '", - "insert text[5:5] --> decoded_text[13:14] '' --> ' '", - "insert text[6:6] --> decoded_text[15:16] '' --> ' '", - "insert text[7:7] --> decoded_text[17:18] '' --> ' '", - "insert text[11:11] --> decoded_text[22:23] '' --> ' '", - "insert text[12:12] --> decoded_text[24:25] '' --> ' '", - "insert text[13:13] --> decoded_text[26:27] '' --> ' '", - "insert text[14:14] --> decoded_text[28:29] '' --> ' '", - "insert text[15:15] --> decoded_text[30:31] '' --> ' '", - "replace text[16:17] --> decoded_text[32:35] '汽' --> ' 汽 '", - "replace text[18:20] --> decoded_text[36:41] '公司' --> ' 公 司 '", - "insert text[21:21] --> decoded_text[42:43] '' --> ' '", - "replace text[22:23] --> decoded_text[44:47] '总' --> ' 总 '", - "insert text[24:24] --> decoded_text[48:49] '' --> ' '", - "insert text[25:25] --> decoded_text[50:51] '' --> ' '", - "insert text[26:26] --> decoded_text[52:53] '' --> ' '", - "insert text[27:27] --> decoded_text[54:55] '' --> ' '", - "insert text[28:28] --> decoded_text[56:57] '' --> ' '", - "insert text[29:29] --> decoded_text[58:59] '' --> ' '", - "insert text[30:30] --> decoded_text[60:61] '' --> ' '", - "replace text[31:33] --> decoded_text[62:67] '公司' --> ' 公 司 '", - "insert text[34:34] --> decoded_text[68:69] '' --> ' '", - "insert text[35:35] --> decoded_text[70:71] '' --> ' '", - "insert text[36:36] --> decoded_text[72:73] '' --> ' '", - "insert text[37:37] --> decoded_text[74:75] '' --> ' '", - "insert text[38:38] --> decoded_text[76:77] '' --> ' '", - "insert text[39:39] --> decoded_text[78:79] '' --> ' '", - "insert text[40:40] --> decoded_text[80:81] '' --> ' '", - "insert text[41:41] --> decoded_text[82:83] '' --> ' '", - "insert text[42:42] --> decoded_text[84:85] '' --> ' '", - "insert text[43:43] --> decoded_text[86:87] '' --> ' '", - "insert text[44:44] --> decoded_text[88:89] '' --> ' '", - "insert text[45:45] --> decoded_text[90:91] '' --> ' '", - "insert text[46:46] --> decoded_text[92:93] '' --> ' '", - "insert text[47:47] --> decoded_text[94:95] '' --> ' '", - "insert text[48:48] --> decoded_text[96:97] '' --> ' '", - "insert text[49:49] --> decoded_text[98:99] '' --> ' '", - "replace text[50:51] --> decoded_text[100:103] '的' --> ' 的 '", - "insert text[52:52] --> decoded_text[104:105] '' --> ' '", - "insert text[53:53] --> decoded_text[106:107] '' --> ' '", - "insert text[54:54] --> decoded_text[108:109] '' --> ' '", - "insert text[55:55] --> decoded_text[110:111] '' --> ' '", - "insert text[56:56] --> decoded_text[112:113] '' --> ' '", - "insert text[57:57] --> decoded_text[114:115] '' --> ' '", - "insert text[58:58] --> decoded_text[116:117] '' --> ' '", - "insert text[59:59] --> decoded_text[118:119] '' --> ' '", - "insert text[60:60] --> decoded_text[120:121] '' --> ' '", - "replace text[61:62] --> decoded_text[122:125] '的' --> ' 的 '", - "insert text[63:63] --> decoded_text[126:127] '' --> ' '", - "insert text[64:64] --> decoded_text[128:129] '' --> ' '", - "insert text[65:65] --> decoded_text[130:131] '' --> ' '", - "insert text[66:66] --> decoded_text[132:133] '' --> ' '", - "insert text[67:67] --> decoded_text[134:135] '' --> ' '", - "insert text[68:68] --> decoded_text[136:137] '' --> ' '", - "insert text[69:69] --> decoded_text[138:139] '' --> ' '", - "replace text[70:71] --> decoded_text[140:143] '汽' --> ' 汽 '", - "insert text[72:72] --> decoded_text[144:145] '' --> ' '", - "insert text[73:73] --> decoded_text[146:147] '' --> ' '", - "insert text[74:74] --> decoded_text[148:149] '' --> ' '", - "insert text[75:75] --> decoded_text[150:151] '' --> ' '", - "insert text[76:76] --> decoded_text[152:153] '' --> ' '", - "replace text[77:80] --> decoded_text[154:161] '公司的' --> ' 公 司 的 '", - "replace text[81:82] --> decoded_text[162:165] '总' --> ' 总 '", - "insert text[83:83] --> decoded_text[166:167] '' --> ' '", - "insert text[84:84] --> decoded_text[168:169] '' --> ' '", - "replace text[85:86] --> decoded_text[170:173] '汽' --> ' 汽 '", - "insert text[87:87] --> decoded_text[174:175] '' --> ' '", - "insert text[88:88] --> decoded_text[176:177] '' --> ' '", - "insert text[89:89] --> decoded_text[178:179] '' --> ' '", - "replace text[90:93] --> decoded_text[180:187] '公司的' --> ' 公 司 的 '", - "replace text[94:95] --> decoded_text[188:191] '总' --> ' 总 '", - "insert text[96:96] --> decoded_text[192:193] '' --> ' '", - "insert text[97:97] --> decoded_text[194:195] '' --> ' '", - "insert text[98:98] --> decoded_text[196:197] '' --> ' '", - "insert text[99:99] --> decoded_text[198:199] '' --> ' '", - "replace text[100:101] --> decoded_text[200:203] '汽' --> ' 汽 '", - "insert text[102:102] --> decoded_text[204:205] '' --> ' '", - "insert text[103:103] --> decoded_text[206:207] '' --> ' '", - "replace text[104:108] --> decoded_text[208:217] '公司的总' --> ' 公 司 的 总 '", - "insert text[109:109] --> decoded_text[218:219] '' --> ' '", - "insert text[110:110] --> decoded_text[220:221] '' --> ' '", - "insert text[111:111] --> decoded_text[222:223] '' --> ' '", - "insert text[112:112] --> decoded_text[224:225] '' --> ' '", - "insert text[113:113] --> decoded_text[226:227] '' --> ' '", - "insert text[114:114] --> decoded_text[228:229] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008695652173913044, - "oov_charset": "[\"・\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : “ 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", - "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", - "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "replace text[73:74] --> decoded_text[145:148] ',' --> ' , '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "replace text[76:77] --> decoded_text[151:154] '你' --> ' 你 '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "insert text[83:83] --> decoded_text[165:166] '' --> ' '", - "replace text[84:85] --> decoded_text[167:170] ',' --> ' , '", - "replace text[86:87] --> decoded_text[171:174] '你' --> ' 你 '", - "insert text[88:88] --> decoded_text[175:176] '' --> ' '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "replace text[91:93] --> decoded_text[181:186] ',你' --> ' , 你 '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:101] --> decoded_text[197:202] ',你' --> ' , 你 '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "insert text[103:103] --> decoded_text[205:206] '' --> ' '", - "insert text[104:104] --> decoded_text[207:208] '' --> ' '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "replace text[107:110] --> decoded_text[213:220] '是不是' --> ' 是 不 是 '", - "replace text[111:112] --> decoded_text[221:228] '”' --> ' [UNK] '", - "replace text[113:115] --> decoded_text[229:234] '也是' --> ' 也 是 '", - "insert text[116:116] --> decoded_text[235:236] '' --> ' '", - "replace text[117:118] --> decoded_text[237:240] '。' --> ' 。 '", - "insert text[119:119] --> decoded_text[241:242] '' --> ' '", - "insert text[120:120] --> decoded_text[243:244] '' --> ' '", - "replace text[121:122] --> decoded_text[245:248] '你' --> ' 你 '", - "insert text[123:123] --> decoded_text[249:250] '' --> ' '", - "insert text[124:124] --> decoded_text[251:252] '' --> ' '", - "insert text[125:125] --> decoded_text[253:254] '' --> ' '", - "replace text[126:131] --> decoded_text[255:266] '他,他也不' --> ' 他 , 他 也 不 '", - "insert text[132:132] --> decoded_text[267:268] '' --> ' '", - "insert text[133:133] --> decoded_text[269:270] '' --> ' '", - "insert text[134:134] --> decoded_text[271:272] '' --> ' '", - "insert text[135:135] --> decoded_text[273:274] '' --> ' '", - "replace text[136:137] --> decoded_text[275:277] '。' --> ' 。'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0072992700729927005, - "oov_charset": "[\"”\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[56:56] --> decoded_text[107:108] '' --> ' '", - "insert text[57:57] --> decoded_text[109:110] '' --> ' '", - "insert text[58:58] --> decoded_text[111:112] '' --> ' '", - "insert text[59:59] --> decoded_text[113:114] '' --> ' '", - "insert text[60:60] --> decoded_text[115:116] '' --> ' '", - "insert text[61:61] --> decoded_text[117:118] '' --> ' '", - "insert text[62:62] --> decoded_text[119:120] '' --> ' '", - "insert text[63:63] --> decoded_text[121:122] '' --> ' '", - "insert text[64:64] --> decoded_text[123:124] '' --> ' '", - "insert text[65:65] --> decoded_text[125:126] '' --> ' '", - "insert text[66:66] --> decoded_text[127:128] '' --> ' '", - "insert text[67:67] --> decoded_text[129:130] '' --> ' '", - "insert text[68:68] --> decoded_text[131:132] '' --> ' '", - "insert text[69:69] --> decoded_text[133:134] '' --> ' '", - "insert text[70:70] --> decoded_text[135:136] '' --> ' '", - "insert text[71:71] --> decoded_text[137:138] '' --> ' '", - "insert text[72:72] --> decoded_text[139:140] '' --> ' '", - "insert text[73:73] --> decoded_text[141:142] '' --> ' '", - "insert text[74:74] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[145:146] '' --> ' '", - "insert text[76:76] --> decoded_text[147:148] '' --> ' '", - "insert text[77:77] --> decoded_text[149:150] '' --> ' '", - "insert text[78:78] --> decoded_text[151:152] '' --> ' '", - "insert text[79:79] --> decoded_text[153:154] '' --> ' '", - "insert text[80:80] --> decoded_text[155:156] '' --> ' '", - "insert text[81:81] --> decoded_text[157:158] '' --> ' '", - "insert text[82:82] --> decoded_text[159:160] '' --> ' '", - "insert text[83:83] --> decoded_text[161:162] '' --> ' '", - "insert text[84:84] --> decoded_text[163:164] '' --> ' '", - "insert text[85:85] --> decoded_text[165:166] '' --> ' '", - "insert text[86:86] --> decoded_text[167:168] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 ‘ 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 “ 拾 金 而 昧 [UNK] , 还 “ 昧 [UNK] 得 理 直 气 壮 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "replace text[24:26] --> decoded_text[47:56] '’,' --> ' [UNK] , '", - "insert text[27:27] --> decoded_text[57:58] '' --> ' '", - "replace text[28:29] --> decoded_text[59:62] '的' --> ' 的 '", - "insert text[30:30] --> decoded_text[63:64] '' --> ' '", - "insert text[31:31] --> decoded_text[65:66] '' --> ' '", - "insert text[32:32] --> decoded_text[67:68] '' --> ' '", - "insert text[33:33] --> decoded_text[69:70] '' --> ' '", - "insert text[34:34] --> decoded_text[71:72] '' --> ' '", - "insert text[35:35] --> decoded_text[73:74] '' --> ' '", - "insert text[36:36] --> decoded_text[75:76] '' --> ' '", - "insert text[37:37] --> decoded_text[77:78] '' --> ' '", - "replace text[38:40] --> decoded_text[79:84] '的,' --> ' 的 , '", - "insert text[41:41] --> decoded_text[85:86] '' --> ' '", - "replace text[42:43] --> decoded_text[87:90] '这' --> ' 这 '", - "insert text[44:44] --> decoded_text[91:92] '' --> ' '", - "insert text[45:45] --> decoded_text[93:94] '' --> ' '", - "insert text[46:46] --> decoded_text[95:96] '' --> ' '", - "insert text[47:47] --> decoded_text[97:98] '' --> ' '", - "insert text[48:48] --> decoded_text[99:100] '' --> ' '", - "insert text[49:49] --> decoded_text[101:102] '' --> ' '", - "insert text[50:50] --> decoded_text[103:104] '' --> ' '", - "insert text[51:51] --> decoded_text[105:106] '' --> ' '", - "insert text[52:52] --> decoded_text[107:108] '' --> ' '", - "replace text[53:54] --> decoded_text[109:112] ',' --> ' , '", - "insert text[55:55] --> decoded_text[113:114] '' --> ' '", - "insert text[56:56] --> decoded_text[115:116] '' --> ' '", - "insert text[57:57] --> decoded_text[117:118] '' --> ' '", - "replace text[58:59] --> decoded_text[119:122] ',' --> ' , '", - "insert text[60:60] --> decoded_text[123:124] '' --> ' '", - "insert text[61:61] --> decoded_text[125:126] '' --> ' '", - "replace text[62:64] --> decoded_text[127:132] '的这' --> ' 的 这 '", - "replace text[65:66] --> decoded_text[133:136] '的' --> ' 的 '", - "insert text[67:67] --> decoded_text[137:138] '' --> ' '", - "insert text[68:68] --> decoded_text[139:140] '' --> ' '", - "replace text[69:70] --> decoded_text[141:144] '这' --> ' 这 '", - "insert text[71:71] --> decoded_text[145:146] '' --> ' '", - "replace text[72:73] --> decoded_text[147:154] '”' --> ' [UNK] '", - "insert text[74:74] --> decoded_text[155:156] '' --> ' '", - "insert text[75:75] --> decoded_text[157:158] '' --> ' '", - "insert text[76:76] --> decoded_text[159:160] '' --> ' '", - "insert text[77:77] --> decoded_text[161:162] '' --> ' '", - "insert text[78:78] --> decoded_text[163:164] '' --> ' '", - "insert text[79:79] --> decoded_text[165:166] '' --> ' '", - "insert text[80:80] --> decoded_text[167:168] '' --> ' '", - "insert text[81:81] --> decoded_text[169:170] '' --> ' '", - "insert text[82:82] --> decoded_text[171:172] '' --> ' '", - "insert text[83:83] --> decoded_text[173:174] '' --> ' '", - "insert text[84:84] --> decoded_text[175:176] '' --> ' '", - "insert text[85:85] --> decoded_text[177:178] '' --> ' '", - "insert text[86:86] --> decoded_text[179:180] '' --> ' '", - "insert text[87:87] --> decoded_text[181:182] '' --> ' '", - "insert text[88:88] --> decoded_text[183:184] '' --> ' '", - "replace text[89:90] --> decoded_text[185:188] '这' --> ' 这 '", - "insert text[91:91] --> decoded_text[189:190] '' --> ' '", - "insert text[92:92] --> decoded_text[191:192] '' --> ' '", - "insert text[93:93] --> decoded_text[193:194] '' --> ' '", - "insert text[94:94] --> decoded_text[195:196] '' --> ' '", - "replace text[95:96] --> decoded_text[197:200] ',' --> ' , '", - "insert text[97:97] --> decoded_text[201:202] '' --> ' '", - "insert text[98:98] --> decoded_text[203:204] '' --> ' '", - "insert text[99:99] --> decoded_text[205:206] '' --> ' '", - "insert text[100:100] --> decoded_text[207:208] '' --> ' '", - "insert text[101:101] --> decoded_text[209:210] '' --> ' '", - "insert text[102:102] --> decoded_text[211:212] '' --> ' '", - "insert text[103:103] --> decoded_text[213:214] '' --> ' '", - "insert text[104:104] --> decoded_text[215:216] '' --> ' '", - "insert text[105:105] --> decoded_text[217:218] '' --> ' '", - "insert text[106:106] --> decoded_text[219:220] '' --> ' '", - "replace text[107:108] --> decoded_text[221:224] ',' --> ' , '", - "insert text[109:109] --> decoded_text[225:226] '' --> ' '", - "replace text[110:112] --> decoded_text[227:232] '的的' --> ' 的 的 '", - "insert text[113:113] --> decoded_text[233:234] '' --> ' '", - "insert text[114:114] --> decoded_text[235:236] '' --> ' '", - "insert text[115:115] --> decoded_text[237:238] '' --> ' '", - "insert text[116:116] --> decoded_text[239:240] '' --> ' '", - "insert text[117:117] --> decoded_text[241:242] '' --> ' '", - "insert text[118:118] --> decoded_text[243:244] '' --> ' '", - "insert text[119:119] --> decoded_text[245:246] '' --> ' '", - "replace text[120:122] --> decoded_text[247:256] '”,' --> ' [UNK] , '", - "insert text[123:123] --> decoded_text[257:258] '' --> ' '", - "insert text[124:124] --> decoded_text[259:260] '' --> ' '", - "replace text[125:126] --> decoded_text[261:268] '”' --> ' [UNK] '", - "insert text[127:127] --> decoded_text[269:270] '' --> ' '", - "insert text[128:128] --> decoded_text[271:272] '' --> ' '", - "insert text[129:129] --> decoded_text[273:274] '' --> ' '", - "insert text[130:130] --> decoded_text[275:276] '' --> ' '", - "insert text[131:131] --> decoded_text[277:278] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"’\", \"”\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "replace text[32:33] --> decoded_text[47:54] '・' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[55:56] '' --> ' '", + "insert text[35:35] --> decoded_text[57:58] '' --> ' '", + "insert text[36:36] --> decoded_text[59:60] '' --> ' '", + "insert text[37:37] --> decoded_text[61:62] '' --> ' '", + "insert text[41:41] --> decoded_text[66:67] '' --> ' '", + "insert text[42:42] --> decoded_text[68:69] '' --> ' '", + "insert text[43:43] --> decoded_text[70:71] '' --> ' '", + "insert text[44:44] --> decoded_text[72:73] '' --> ' '", + "insert text[45:45] --> decoded_text[74:75] '' --> ' '", + "insert text[46:46] --> decoded_text[76:77] '' --> ' '", + "replace text[47:48] --> decoded_text[78:81] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[82:83] '' --> ' '", + "insert text[50:50] --> decoded_text[84:85] '' --> ' '", + "insert text[51:51] --> decoded_text[86:87] '' --> ' '", + "insert text[52:52] --> decoded_text[88:89] '' --> ' '", + "insert text[53:53] --> decoded_text[90:91] '' --> ' '", + "insert text[54:54] --> decoded_text[92:93] '' --> ' '", + "insert text[55:55] --> decoded_text[94:95] '' --> ' '", + "insert text[56:56] --> decoded_text[96:97] '' --> ' '", + "replace text[57:58] --> decoded_text[98:101] ',' --> ' , '", + "insert text[59:59] --> decoded_text[102:103] '' --> ' '", + "insert text[60:60] --> decoded_text[104:105] '' --> ' '", + "insert text[61:61] --> decoded_text[106:107] '' --> ' '", + "insert text[62:62] --> decoded_text[108:109] '' --> ' '", + "insert text[63:63] --> decoded_text[110:111] '' --> ' '", + "insert text[64:64] --> decoded_text[112:113] '' --> ' '", + "insert text[65:65] --> decoded_text[114:115] '' --> ' '", + "insert text[66:66] --> decoded_text[116:117] '' --> ' '", + "insert text[67:67] --> decoded_text[118:119] '' --> ' '", + "insert text[68:68] --> decoded_text[120:121] '' --> ' '", + "insert text[69:69] --> decoded_text[122:123] '' --> ' '", + "insert text[70:70] --> decoded_text[124:125] '' --> ' '", + "insert text[71:71] --> decoded_text[126:127] '' --> ' '", + "insert text[72:72] --> decoded_text[128:129] '' --> ' '", + "insert text[73:73] --> decoded_text[130:131] '' --> ' '", + "insert text[74:74] --> decoded_text[132:133] '' --> ' '", + "insert text[75:75] --> decoded_text[134:135] '' --> ' '", + "insert text[76:76] --> decoded_text[136:137] '' --> ' '", + "insert text[77:77] --> decoded_text[138:139] '' --> ' '", + "insert text[78:78] --> decoded_text[140:141] '' --> ' '", + "insert text[79:79] --> decoded_text[142:143] '' --> ' '", + "replace text[80:81] --> decoded_text[144:147] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[148:149] '' --> ' '", + "insert text[83:83] --> decoded_text[150:151] '' --> ' '", + "insert text[84:84] --> decoded_text[152:153] '' --> ' '", + "insert text[85:85] --> decoded_text[154:155] '' --> ' '", + "insert text[86:86] --> decoded_text[156:157] '' --> ' '", + "insert text[87:87] --> decoded_text[158:159] '' --> ' '", + "insert text[88:88] --> decoded_text[160:161] '' --> ' '", + "insert text[89:89] --> decoded_text[162:163] '' --> ' '", + "insert text[90:90] --> decoded_text[164:165] '' --> ' '", + "replace text[91:92] --> decoded_text[166:169] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[170:171] '' --> ' '", + "insert text[94:94] --> decoded_text[172:173] '' --> ' '", + "replace text[95:96] --> decoded_text[174:177] ',' --> ' , '", + "insert text[97:97] --> decoded_text[178:179] '' --> ' '", + "insert text[98:98] --> decoded_text[180:181] '' --> ' '", + "insert text[99:99] --> decoded_text[182:183] '' --> ' '", + "insert text[100:100] --> decoded_text[184:185] '' --> ' '", + "replace text[101:102] --> decoded_text[186:189] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[190:191] '' --> ' '", + "insert text[104:104] --> decoded_text[192:193] '' --> ' '", + "insert text[105:105] --> decoded_text[194:195] '' --> ' '", + "insert text[106:106] --> decoded_text[196:197] '' --> ' '", + "insert text[107:107] --> decoded_text[198:199] '' --> ' '", + "insert text[108:108] --> decoded_text[200:201] '' --> ' '", + "replace text[109:110] --> decoded_text[202:205] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[206:207] '' --> ' '", + "insert text[112:112] --> decoded_text[208:209] '' --> ' '", + "replace text[113:114] --> decoded_text[210:213] ',' --> ' , '", + "insert text[115:115] --> decoded_text[214:215] '' --> ' '", + "insert text[116:116] --> decoded_text[216:217] '' --> ' '", + "insert text[117:117] --> decoded_text[218:219] '' --> ' '", + "insert text[118:118] --> decoded_text[220:221] '' --> ' '", + "insert text[119:119] --> decoded_text[222:223] '' --> ' '", + "insert text[120:120] --> decoded_text[224:225] '' --> ' '", + "insert text[121:121] --> decoded_text[226:227] '' --> ' '", + "insert text[122:122] --> decoded_text[228:229] '' --> ' '", + "insert text[123:123] --> decoded_text[230:231] '' --> ' '", + "insert text[124:124] --> decoded_text[232:233] '' --> ' '", + "insert text[125:125] --> decoded_text[234:235] '' --> ' '", + "insert text[126:126] --> decoded_text[236:237] '' --> ' '", + "insert text[127:127] --> decoded_text[238:239] '' --> ' '", + "insert text[128:128] --> decoded_text[240:241] '' --> ' '", + "insert text[129:129] --> decoded_text[242:243] '' --> ' '", + "replace text[130:131] --> decoded_text[244:247] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[248:250] 'S' --> 's '", + "insert text[134:134] --> decoded_text[251:252] '' --> ' '", + "insert text[135:135] --> decoded_text[253:254] '' --> ' '", + "replace text[136:137] --> decoded_text[255:258] ',' --> ' , '", + "insert text[138:138] --> decoded_text[259:260] '' --> ' '", + "insert text[139:139] --> decoded_text[261:262] '' --> ' '", + "insert text[140:140] --> decoded_text[263:264] '' --> ' '", + "replace text[141:142] --> decoded_text[265:268] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[269:270] '' --> ' '", + "insert text[144:144] --> decoded_text[271:272] '' --> ' '", + "replace text[145:146] --> decoded_text[273:276] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[277:278] '' --> ' '", + "replace text[148:149] --> decoded_text[279:282] ',' --> ' , '", + "insert text[150:150] --> decoded_text[283:284] '' --> ' '", + "insert text[151:151] --> decoded_text[285:286] '' --> ' '", + "insert text[152:152] --> decoded_text[287:288] '' --> ' '", + "replace text[153:154] --> decoded_text[289:292] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[293:294] '' --> ' '", + "insert text[156:156] --> decoded_text[295:296] '' --> ' '", + "insert text[157:157] --> decoded_text[297:298] '' --> ' '", + "insert text[158:158] --> decoded_text[299:300] '' --> ' '", + "insert text[159:159] --> decoded_text[301:302] '' --> ' '", + "insert text[163:163] --> decoded_text[306:307] '' --> ' '", + "insert text[164:164] --> decoded_text[308:309] '' --> ' '", + "insert text[165:165] --> decoded_text[310:311] '' --> ' '", + "insert text[166:166] --> decoded_text[312:313] '' --> ' '", + "insert text[167:167] --> decoded_text[314:315] '' --> ' '", + "replace text[168:169] --> decoded_text[316:319] ',' --> ' , '", + "insert text[170:170] --> decoded_text[320:321] '' --> ' '", + "replace text[171:173] --> decoded_text[322:327] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[328:329] '' --> ' '", + "insert text[175:175] --> decoded_text[330:331] '' --> ' '", + "insert text[176:176] --> decoded_text[332:333] '' --> ' '", + "insert text[177:177] --> decoded_text[334:335] '' --> ' '", + "insert text[178:178] --> decoded_text[336:337] '' --> ' '", + "insert text[179:179] --> decoded_text[338:339] '' --> ' '", + "insert text[180:180] --> decoded_text[340:341] '' --> ' '", + "insert text[181:181] --> decoded_text[342:343] '' --> ' '", + "insert text[182:182] --> decoded_text[344:345] '' --> ' '", + "replace text[183:184] --> decoded_text[346:349] ',' --> ' , '", + "insert text[185:185] --> decoded_text[350:351] '' --> ' '", + "insert text[186:186] --> decoded_text[352:353] '' --> ' '", + "insert text[187:187] --> decoded_text[354:355] '' --> ' '", + "insert text[188:188] --> decoded_text[356:357] '' --> ' '", + "replace text[189:190] --> decoded_text[358:361] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[362:363] '' --> ' '", + "insert text[192:192] --> decoded_text[364:365] '' --> ' '", + "insert text[193:193] --> decoded_text[366:367] '' --> ' '", + "insert text[194:194] --> decoded_text[368:369] '' --> ' '", + "insert text[195:195] --> decoded_text[370:371] '' --> ' '", + "insert text[196:196] --> decoded_text[372:373] '' --> ' '", + "insert text[206:206] --> decoded_text[383:384] '' --> ' '", + "insert text[207:207] --> decoded_text[385:386] '' --> ' '", + "insert text[211:211] --> decoded_text[390:391] '' --> ' '", + "insert text[212:212] --> decoded_text[392:393] '' --> ' '", + "insert text[213:213] --> decoded_text[394:395] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"・\", \"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:3] --> decoded_text[3:10] '・' --> ' [UNK] '", + "insert text[4:4] --> decoded_text[11:12] '' --> ' '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[11:11] --> decoded_text[22:23] '' --> ' '", + "insert text[12:12] --> decoded_text[24:25] '' --> ' '", + "insert text[13:13] --> decoded_text[26:27] '' --> ' '", + "insert text[14:14] --> decoded_text[28:29] '' --> ' '", + "insert text[15:15] --> decoded_text[30:31] '' --> ' '", + "replace text[16:17] --> decoded_text[32:35] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[36:41] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[42:43] '' --> ' '", + "replace text[22:23] --> decoded_text[44:47] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[48:49] '' --> ' '", + "insert text[25:25] --> decoded_text[50:51] '' --> ' '", + "insert text[26:26] --> decoded_text[52:53] '' --> ' '", + "insert text[27:27] --> decoded_text[54:55] '' --> ' '", + "insert text[28:28] --> decoded_text[56:57] '' --> ' '", + "insert text[29:29] --> decoded_text[58:59] '' --> ' '", + "insert text[30:30] --> decoded_text[60:61] '' --> ' '", + "replace text[31:33] --> decoded_text[62:67] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[68:69] '' --> ' '", + "insert text[35:35] --> decoded_text[70:71] '' --> ' '", + "insert text[36:36] --> decoded_text[72:73] '' --> ' '", + "insert text[37:37] --> decoded_text[74:75] '' --> ' '", + "insert text[38:38] --> decoded_text[76:77] '' --> ' '", + "insert text[39:39] --> decoded_text[78:79] '' --> ' '", + "insert text[40:40] --> decoded_text[80:81] '' --> ' '", + "insert text[41:41] --> decoded_text[82:83] '' --> ' '", + "insert text[42:42] --> decoded_text[84:85] '' --> ' '", + "insert text[43:43] --> decoded_text[86:87] '' --> ' '", + "insert text[44:44] --> decoded_text[88:89] '' --> ' '", + "insert text[45:45] --> decoded_text[90:91] '' --> ' '", + "insert text[46:46] --> decoded_text[92:93] '' --> ' '", + "insert text[47:47] --> decoded_text[94:95] '' --> ' '", + "insert text[48:48] --> decoded_text[96:97] '' --> ' '", + "insert text[49:49] --> decoded_text[98:99] '' --> ' '", + "replace text[50:51] --> decoded_text[100:103] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[104:105] '' --> ' '", + "insert text[53:53] --> decoded_text[106:107] '' --> ' '", + "insert text[54:54] --> decoded_text[108:109] '' --> ' '", + "insert text[55:55] --> decoded_text[110:111] '' --> ' '", + "insert text[56:56] --> decoded_text[112:113] '' --> ' '", + "insert text[57:57] --> decoded_text[114:115] '' --> ' '", + "insert text[58:58] --> decoded_text[116:117] '' --> ' '", + "insert text[59:59] --> decoded_text[118:119] '' --> ' '", + "insert text[60:60] --> decoded_text[120:121] '' --> ' '", + "replace text[61:62] --> decoded_text[122:125] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[126:127] '' --> ' '", + "insert text[64:64] --> decoded_text[128:129] '' --> ' '", + "insert text[65:65] --> decoded_text[130:131] '' --> ' '", + "insert text[66:66] --> decoded_text[132:133] '' --> ' '", + "insert text[67:67] --> decoded_text[134:135] '' --> ' '", + "insert text[68:68] --> decoded_text[136:137] '' --> ' '", + "insert text[69:69] --> decoded_text[138:139] '' --> ' '", + "replace text[70:71] --> decoded_text[140:143] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[144:145] '' --> ' '", + "insert text[73:73] --> decoded_text[146:147] '' --> ' '", + "insert text[74:74] --> decoded_text[148:149] '' --> ' '", + "insert text[75:75] --> decoded_text[150:151] '' --> ' '", + "insert text[76:76] --> decoded_text[152:153] '' --> ' '", + "replace text[77:80] --> decoded_text[154:161] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[162:165] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[166:167] '' --> ' '", + "insert text[84:84] --> decoded_text[168:169] '' --> ' '", + "replace text[85:86] --> decoded_text[170:173] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[174:175] '' --> ' '", + "insert text[88:88] --> decoded_text[176:177] '' --> ' '", + "insert text[89:89] --> decoded_text[178:179] '' --> ' '", + "replace text[90:93] --> decoded_text[180:187] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[188:191] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[192:193] '' --> ' '", + "insert text[97:97] --> decoded_text[194:195] '' --> ' '", + "insert text[98:98] --> decoded_text[196:197] '' --> ' '", + "insert text[99:99] --> decoded_text[198:199] '' --> ' '", + "replace text[100:101] --> decoded_text[200:203] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[204:205] '' --> ' '", + "insert text[103:103] --> decoded_text[206:207] '' --> ' '", + "replace text[104:108] --> decoded_text[208:217] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[218:219] '' --> ' '", + "insert text[110:110] --> decoded_text[220:221] '' --> ' '", + "insert text[111:111] --> decoded_text[222:223] '' --> ' '", + "insert text[112:112] --> decoded_text[224:225] '' --> ' '", + "insert text[113:113] --> decoded_text[226:227] '' --> ' '", + "insert text[114:114] --> decoded_text[228:229] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"・\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : “ 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "replace text[73:74] --> decoded_text[145:148] ',' --> ' , '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "replace text[76:77] --> decoded_text[151:154] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "replace text[84:85] --> decoded_text[167:170] ',' --> ' , '", + "replace text[86:87] --> decoded_text[171:174] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[175:176] '' --> ' '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "replace text[91:93] --> decoded_text[181:186] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:101] --> decoded_text[197:202] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "insert text[103:103] --> decoded_text[205:206] '' --> ' '", + "insert text[104:104] --> decoded_text[207:208] '' --> ' '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "replace text[107:110] --> decoded_text[213:220] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[221:228] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[229:234] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[235:236] '' --> ' '", + "replace text[117:118] --> decoded_text[237:240] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[241:242] '' --> ' '", + "insert text[120:120] --> decoded_text[243:244] '' --> ' '", + "replace text[121:122] --> decoded_text[245:248] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[249:250] '' --> ' '", + "insert text[124:124] --> decoded_text[251:252] '' --> ' '", + "insert text[125:125] --> decoded_text[253:254] '' --> ' '", + "replace text[126:131] --> decoded_text[255:266] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[267:268] '' --> ' '", + "insert text[133:133] --> decoded_text[269:270] '' --> ' '", + "insert text[134:134] --> decoded_text[271:272] '' --> ' '", + "insert text[135:135] --> decoded_text[273:274] '' --> ' '", + "replace text[136:137] --> decoded_text[275:277] '。' --> ' 。'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0072992700729927005, + "oov_charset": "[\"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 ‘ 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 “ 拾 金 而 昧 [UNK] , 还 “ 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "replace text[24:26] --> decoded_text[47:56] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[57:58] '' --> ' '", + "replace text[28:29] --> decoded_text[59:62] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[63:64] '' --> ' '", + "insert text[31:31] --> decoded_text[65:66] '' --> ' '", + "insert text[32:32] --> decoded_text[67:68] '' --> ' '", + "insert text[33:33] --> decoded_text[69:70] '' --> ' '", + "insert text[34:34] --> decoded_text[71:72] '' --> ' '", + "insert text[35:35] --> decoded_text[73:74] '' --> ' '", + "insert text[36:36] --> decoded_text[75:76] '' --> ' '", + "insert text[37:37] --> decoded_text[77:78] '' --> ' '", + "replace text[38:40] --> decoded_text[79:84] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[85:86] '' --> ' '", + "replace text[42:43] --> decoded_text[87:90] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[91:92] '' --> ' '", + "insert text[45:45] --> decoded_text[93:94] '' --> ' '", + "insert text[46:46] --> decoded_text[95:96] '' --> ' '", + "insert text[47:47] --> decoded_text[97:98] '' --> ' '", + "insert text[48:48] --> decoded_text[99:100] '' --> ' '", + "insert text[49:49] --> decoded_text[101:102] '' --> ' '", + "insert text[50:50] --> decoded_text[103:104] '' --> ' '", + "insert text[51:51] --> decoded_text[105:106] '' --> ' '", + "insert text[52:52] --> decoded_text[107:108] '' --> ' '", + "replace text[53:54] --> decoded_text[109:112] ',' --> ' , '", + "insert text[55:55] --> decoded_text[113:114] '' --> ' '", + "insert text[56:56] --> decoded_text[115:116] '' --> ' '", + "insert text[57:57] --> decoded_text[117:118] '' --> ' '", + "replace text[58:59] --> decoded_text[119:122] ',' --> ' , '", + "insert text[60:60] --> decoded_text[123:124] '' --> ' '", + "insert text[61:61] --> decoded_text[125:126] '' --> ' '", + "replace text[62:64] --> decoded_text[127:132] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[133:136] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[137:138] '' --> ' '", + "insert text[68:68] --> decoded_text[139:140] '' --> ' '", + "replace text[69:70] --> decoded_text[141:144] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[145:146] '' --> ' '", + "replace text[72:73] --> decoded_text[147:154] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[155:156] '' --> ' '", + "insert text[75:75] --> decoded_text[157:158] '' --> ' '", + "insert text[76:76] --> decoded_text[159:160] '' --> ' '", + "insert text[77:77] --> decoded_text[161:162] '' --> ' '", + "insert text[78:78] --> decoded_text[163:164] '' --> ' '", + "insert text[79:79] --> decoded_text[165:166] '' --> ' '", + "insert text[80:80] --> decoded_text[167:168] '' --> ' '", + "insert text[81:81] --> decoded_text[169:170] '' --> ' '", + "insert text[82:82] --> decoded_text[171:172] '' --> ' '", + "insert text[83:83] --> decoded_text[173:174] '' --> ' '", + "insert text[84:84] --> decoded_text[175:176] '' --> ' '", + "insert text[85:85] --> decoded_text[177:178] '' --> ' '", + "insert text[86:86] --> decoded_text[179:180] '' --> ' '", + "insert text[87:87] --> decoded_text[181:182] '' --> ' '", + "insert text[88:88] --> decoded_text[183:184] '' --> ' '", + "replace text[89:90] --> decoded_text[185:188] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[189:190] '' --> ' '", + "insert text[92:92] --> decoded_text[191:192] '' --> ' '", + "insert text[93:93] --> decoded_text[193:194] '' --> ' '", + "insert text[94:94] --> decoded_text[195:196] '' --> ' '", + "replace text[95:96] --> decoded_text[197:200] ',' --> ' , '", + "insert text[97:97] --> decoded_text[201:202] '' --> ' '", + "insert text[98:98] --> decoded_text[203:204] '' --> ' '", + "insert text[99:99] --> decoded_text[205:206] '' --> ' '", + "insert text[100:100] --> decoded_text[207:208] '' --> ' '", + "insert text[101:101] --> decoded_text[209:210] '' --> ' '", + "insert text[102:102] --> decoded_text[211:212] '' --> ' '", + "insert text[103:103] --> decoded_text[213:214] '' --> ' '", + "insert text[104:104] --> decoded_text[215:216] '' --> ' '", + "insert text[105:105] --> decoded_text[217:218] '' --> ' '", + "insert text[106:106] --> decoded_text[219:220] '' --> ' '", + "replace text[107:108] --> decoded_text[221:224] ',' --> ' , '", + "insert text[109:109] --> decoded_text[225:226] '' --> ' '", + "replace text[110:112] --> decoded_text[227:232] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[233:234] '' --> ' '", + "insert text[114:114] --> decoded_text[235:236] '' --> ' '", + "insert text[115:115] --> decoded_text[237:238] '' --> ' '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "insert text[117:117] --> decoded_text[241:242] '' --> ' '", + "insert text[118:118] --> decoded_text[243:244] '' --> ' '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "replace text[120:122] --> decoded_text[247:256] '”,' --> ' [UNK] , '", + "insert text[123:123] --> decoded_text[257:258] '' --> ' '", + "insert text[124:124] --> decoded_text[259:260] '' --> ' '", + "replace text[125:126] --> decoded_text[261:268] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[269:270] '' --> ' '", + "insert text[128:128] --> decoded_text[271:272] '' --> ' '", + "insert text[129:129] --> decoded_text[273:274] '' --> ' '", + "insert text[130:130] --> decoded_text[275:276] '' --> ' '", + "insert text[131:131] --> decoded_text[277:278] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"’\", \"”\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json index 4a97ff2230823a353878e7cdda083198c81f6093..3a4c24cf62620a737509a66b9ea4c60bef3bdf20 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "diff": [ - "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", - "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json index ea704b00b050672bf084a1d2fa27862b13ea7605..9fd4644ee225987f1a091a209ea1b97f6151b493 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", - "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", - "diff": [ - "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json index 7d18eb94764ac8a356394d286cc19e13442113b1..b60eec8d2c7902c405a6a0049a232009f784f532 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "diff": [ - "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن....عجیب بودش", - "diff": [ - "delete text[4:5] --> decoded_text[4:4] ' ' --> ''", - "replace text[99:101] --> decoded_text[98:101] ' …' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.009009009009009009, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن....عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''", + "replace text[99:101] --> decoded_text[98:101] ' …' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009009009009009009, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json index 70c1c0795c35a30bf3faa61e7f45b03db2b05262..f508125feaff3095c8d1fbc5a236502b6d67e967 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json index 49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8..4d853773ba7960c544d8888ba1128444db76d0cb 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02702702702702703, - "oov_charset": "[\"!\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"1\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "diff": [ - "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", - "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03125, - "oov_charset": "[\"5\", \"1\"]" - }, - { - "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", - "diff": [ - "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.024096385542168676, - "oov_charset": "[\"…\"]" - }, - { - "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", - "diff": [ - "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"…\"]" - }, - { - "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"!\"]" - }, - { - "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023809523809523808, - "oov_charset": "[\"?\"]" - }, - { - "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"1\"]" - }, - { - "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", - "diff": [ - "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"?\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json index 5d2fa407bbd6b5d68fcde79aae085e45990acc23..ce5511efe8e2017b07ac7dcc09c88a417807f25c 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "언제나 좋은 글 감사합니다ㅡㅡ", - "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", - "diff": [ - "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.125, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "좋은 자료 감사합니다ㅡ0ㅡ", - "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", - "diff": [ - "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", - "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.14285714285714285, - "oov_charset": "[\"ㅡ\"]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011363636363636364, - "oov_charset": "[\"⁴\"]" - }, - { - "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.023255813953488372, - "oov_charset": "[\"¹\"]" - }, - { - "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", - "diff": [ - "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012048192771084338, - "oov_charset": "[\"…\"]" - }, - { - "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", - "diff": [ - "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.010752688172043012, - "oov_charset": "[\"¹\"]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json index 6755d9364dbcd5976c6bf0e7b19fdafa0e303465..a316a22b3025cdbe5307446b015bc7f586f767a4 100644 --- a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json @@ -1,155 +1,155 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.037383177570093455, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json index 044739760e37c99a1d108edae638ac1276f4d243..77531264d60e6e521687b6f678701f19170f629b 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", - "diff": [ - "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", - "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", - "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", - "diff": [ - "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", - "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", - "diff": [ - "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", - "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", - "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", - "diff": [ - "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", - "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", - "diff": [ - "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", - "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", - "diff": [ - "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", - "diff": [ - "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", - "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json index 346ef60e51451a7fcfd1d66b8194b576febd5e09..629e26e6c5c7f857418b1c3625fae4f322452c80 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", - "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", - "diff": [ - "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Laut dieser Studie sind es ....", - "decoded_text": "Laut dieser Studie sind es....", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", - "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", - "diff": [ - "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", - "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", - "diff": [ - "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", - "diff": [ - "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", - "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", - "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", - "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", - "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", - "diff": [ - "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", - "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json index 6e7e33df7d8b83b93e7de01ec45695b92cfc8353..f4e4ecdb515292b758d6286e69b570d824d99d60 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", - "diff": [ - "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", - "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", - "diff": [ - "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", - "diff": [ - "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", - "diff": [ - "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", - "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", - "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", - "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", - "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", - "diff": [ - "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", - "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", - "diff": [ - "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", - "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", - "diff": [ - "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", - "diff": [ - "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json index 9f0009ec60f4baf997b9a13aa566c6bb9776a5d7..59c1eda8928a616d850d9d89405e0fca8f845f67 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json @@ -1,82 +1,82 @@ -[ - { - "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", - "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", - "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", - "diff": [ - "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", - "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", - "diff": [ - "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", - "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", - "diff": [ - "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", - "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", - "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", - "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", - "diff": [ - "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", - "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", - "diff": [ - "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json index 0554a90957042a4d5225801b5924055cf53611a3..75baab06b7c8132f9a4b52ca8bca1383747ad540 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "diff": [ - "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", - "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", - "diff": [ - "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", - "diff": [ - "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", - "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", - "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", - "diff": [ - "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", - "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", - "diff": [ - "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", - "diff": [ - "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", - "diff": [ - "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json index d91c7f7dd01adbd376b91940494b2240ffec887e..23cd05614681c98d4dd8d30c7134954ffe5acdf0 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json @@ -1,232 +1,232 @@ -[ - { - "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", - "decoded_text": "- [UNK] / [UNK] [UNK] [UNK] - [UNK] [UNK].. ( 1 )", - "diff": [ - "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", - "replace text[11:14] --> decoded_text[10:15] 'علي' --> '[UNK]'", - "replace text[15:19] --> decoded_text[16:21] 'محمد' --> '[UNK]'", - "replace text[20:28] --> decoded_text[22:27] 'الكحلاني' --> '[UNK]'", - "replace text[31:36] --> decoded_text[30:35] 'نصيحة' --> '[UNK]'", - "replace text[37:43] --> decoded_text[36:41] 'صادقة ' --> '[UNK]'", - "insert text[49:49] --> decoded_text[47:48] '' --> ' '" - ], - "n_oov_chars": 31, - "oov_ratio": 0.62, - "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" - }, - { - "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", - "decoded_text": "[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", - "diff": [ - "replace text[0:97] --> decoded_text[0:91] 'اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[99:247] --> decoded_text[93:250] 'ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[249:279] --> decoded_text[252:281] 'ومن اضطراب في نسيجها الاجتماعي' --> '[UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[281:389] --> decoded_text[283:398] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[391:525] --> decoded_text[400:537] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[527:785] --> decoded_text[539:798] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[787:884] --> decoded_text[800:897] 'عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '[UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[886:890] --> decoded_text[899:906] 'تردف' --> ' [UNK] '", - "replace text[892:966] --> decoded_text[908:987] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'" - ], - "n_oov_chars": 776, - "oov_ratio": 0.8033126293995859, - "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" - }, - { - "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", - "diff": [ - "replace text[0:49] --> decoded_text[0:59] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[51:81] --> decoded_text[61:96] 'وما شهدته البلد من مواقف عديدة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[83:151] --> decoded_text[98:163] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[153:198] --> decoded_text[165:206] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[200:337] --> decoded_text[208:351] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 333, - "oov_ratio": 0.9823008849557522, - "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \" \", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" - }, - { - "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", - "replace text[6:12] --> decoded_text[6:11] 'الرسول' --> '[UNK]'", - "replace text[13:21] --> decoded_text[12:17] 'وأحاديثه' --> '[UNK]'", - "replace text[22:24] --> decoded_text[18:23] 'ما' --> '[UNK]'", - "replace text[25:27] --> decoded_text[24:29] 'هي' --> '[UNK]'", - "replace text[28:31] --> decoded_text[30:35] 'إلا' --> '[UNK]'", - "replace text[32:35] --> decoded_text[36:41] 'وحي' --> '[UNK]'", - "replace text[36:38] --> decoded_text[42:47] 'من' --> '[UNK]'", - "replace text[39:43] --> decoded_text[48:53] 'الله' --> '[UNK]'", - "replace text[46:51] --> decoded_text[56:61] 'بمعنى' --> '[UNK]'", - "replace text[52:54] --> decoded_text[62:67] 'أن' --> '[UNK]'", - "replace text[55:60] --> decoded_text[68:73] 'العمل' --> '[UNK]'", - "replace text[61:64] --> decoded_text[74:79] 'بما' --> '[UNK]'", - "replace text[65:69] --> decoded_text[80:85] 'قاله' --> '[UNK]'", - "replace text[70:76] --> decoded_text[86:91] 'الرسول' --> '[UNK]'", - "replace text[77:83] --> decoded_text[92:97] 'الأعظم' --> '[UNK]'", - "replace text[84:86] --> decoded_text[98:103] 'هو' --> '[UNK]'", - "replace text[87:94] --> decoded_text[104:109] 'مسؤولية' --> '[UNK]'", - "replace text[95:102] --> decoded_text[110:115] 'أخلاقية' --> '[UNK]'", - "replace text[103:109] --> decoded_text[116:121] 'ودينية' --> '[UNK]'", - "replace text[110:118] --> decoded_text[122:127] 'ومسؤولية' --> '[UNK]'", - "replace text[119:125] --> decoded_text[128:133] 'سياسية' --> '[UNK]'" - ], - "n_oov_chars": 123, - "oov_ratio": 0.968503937007874, - "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \" \", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" - }, - { - "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", - "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", - "replace text[10:18] --> decoded_text[12:17] 'اليمنيين' --> '[UNK]'", - "replace text[19:26] --> decoded_text[18:23] 'القائمة' --> '[UNK]'", - "replace text[27:29] --> decoded_text[24:29] 'هي' --> '[UNK]'", - "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", - "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", - "replace text[41:44] --> decoded_text[43:48] 'وهل' --> '[UNK]'", - "replace text[45:47] --> decoded_text[49:54] 'من' --> '[UNK]'", - "replace text[48:54] --> decoded_text[55:60] 'الحكمة' --> '[UNK]'", - "replace text[55:57] --> decoded_text[61:66] 'أن' --> '[UNK]'", - "replace text[58:61] --> decoded_text[67:72] 'تظل' --> '[UNK]'", - "replace text[62:70] --> decoded_text[73:78] 'البندقية' --> '[UNK]'", - "replace text[71:79] --> decoded_text[79:84] 'والقذيفة' --> '[UNK]'", - "replace text[80:82] --> decoded_text[85:90] 'هي' --> '[UNK]'", - "replace text[83:88] --> decoded_text[91:96] 'وسيلة' --> '[UNK]'", - "replace text[89:95] --> decoded_text[97:102] 'الخطاب' --> '[UNK]'", - "replace text[96:103] --> decoded_text[103:108] 'والحوار' --> '[UNK]'", - "replace text[104:108] --> decoded_text[109:114] 'فيما' --> '[UNK]'", - "replace text[109:114] --> decoded_text[115:120] 'بيننا' --> '[UNK]'", - "replace text[115:118] --> decoded_text[121:126] 'نحن' --> '[UNK]'", - "replace text[119:124] --> decoded_text[127:132] 'أبناء' --> '[UNK]'", - "replace text[125:128] --> decoded_text[133:138] 'هذا' --> '[UNK]'", - "replace text[129:134] --> decoded_text[139:144] 'البلد' --> '[UNK]'", - "replace text[135:141] --> decoded_text[145:150] 'العظيم' --> '[UNK]'" - ], - "n_oov_chars": 140, - "oov_ratio": 0.9790209790209791, - "oov_charset": "[\"ف\", \"ه\", \"ل\", \" \", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" - }, - { - "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'وهل' --> '[UNK]'", - "replace text[4:12] --> decoded_text[6:11] 'الانسياق' --> '[UNK]'", - "replace text[13:16] --> decoded_text[12:17] 'نحو' --> '[UNK]'", - "replace text[17:22] --> decoded_text[18:23] 'مزيدٍ' --> '[UNK]'", - "replace text[23:25] --> decoded_text[24:29] 'من' --> '[UNK]'", - "replace text[26:32] --> decoded_text[30:35] 'العناد' --> '[UNK]'", - "replace text[33:39] --> decoded_text[36:41] 'ومزيدٍ' --> '[UNK]'", - "replace text[40:42] --> decoded_text[42:47] 'من' --> '[UNK]'", - "replace text[43:51] --> decoded_text[48:53] 'الاحتقان' --> '[UNK]'", - "replace text[53:59] --> decoded_text[55:60] 'ومزيدٍ' --> '[UNK]'", - "replace text[60:62] --> decoded_text[61:66] 'من' --> '[UNK]'", - "replace text[63:71] --> decoded_text[67:72] 'الاحتراب' --> '[UNK]'", - "replace text[72:75] --> decoded_text[73:78] 'بين' --> '[UNK]'", - "replace text[76:81] --> decoded_text[79:84] 'أبناء' --> '[UNK]'", - "replace text[82:85] --> decoded_text[85:90] 'بلد' --> '[UNK]'", - "replace text[86:90] --> decoded_text[91:96] 'واحد' --> '[UNK]'", - "replace text[91:95] --> decoded_text[97:102] 'وشعب' --> '[UNK]'", - "replace text[96:100] --> decoded_text[103:108] 'واحد' --> '[UNK]'", - "replace text[101:105] --> decoded_text[109:114] 'يرضى' --> '[UNK]'", - "replace text[106:110] --> decoded_text[115:120] 'الله' --> '[UNK]'", - "replace text[111:117] --> decoded_text[121:126] 'ورسوله' --> '[UNK]'", - "replace text[118:124] --> decoded_text[127:132] 'الكريم' --> '[UNK]'", - "replace text[125:129] --> decoded_text[133:138] 'عليه' --> '[UNK]'", - "replace text[130:134] --> decoded_text[139:144] 'صلاة' --> '[UNK]'", - "replace text[135:139] --> decoded_text[145:150] 'الله' --> '[UNK]'", - "replace text[140:146] --> decoded_text[151:156] 'وسلامه' --> '[UNK]'", - "replace text[147:151] --> decoded_text[157:162] 'وعلى' --> '[UNK]'", - "replace text[152:155] --> decoded_text[163:168] 'آله' --> '[UNK]'" - ], - "n_oov_chars": 154, - "oov_ratio": 0.9808917197452229, - "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" - }, - { - "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] - [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", - "diff": [ - "replace text[0:84] --> decoded_text[0:110] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] '", - "replace text[86:107] --> decoded_text[112:135] 'وهو بلد ولاَّد بالخير' --> '[UNK] [UNK] [UNK] [UNK]'", - "replace text[109:118] --> decoded_text[137:148] 'إلى أطلال' --> '[UNK] [UNK]'", - "replace text[120:175] --> decoded_text[150:209] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[177:226] --> decoded_text[211:266] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'" - ], - "n_oov_chars": 176, - "oov_ratio": 0.7787610619469026, - "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" - }, - { - "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK].. [UNK]!", - "diff": [ - "replace text[0:96] --> decoded_text[0:95] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[98:118] --> decoded_text[97:120] 'لم يسلموا ولن يسلموا' --> '[UNK] [UNK] [UNK] [UNK]'", - "replace text[121:150] --> decoded_text[123:146] 'والأعباء والمتاعب طالت الجميع' --> '[UNK] [UNK] [UNK] [UNK]'", - "replace text[152:280] --> decoded_text[148:279] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[282:392] --> decoded_text[281:394] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[394:403] --> decoded_text[396:407] 'أو أبوظبي' --> '[UNK] [UNK]'", - "replace text[405:406] --> decoded_text[409:415] '؟' --> ' [UNK]'" - ], - "n_oov_chars": 398, - "oov_ratio": 0.9778869778869779, - "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" - }, - { - "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]!!", - "diff": [ - "replace text[0:118] --> decoded_text[0:131] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", - "replace text[121:245] --> decoded_text[134:271] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 243, - "oov_ratio": 0.9838056680161943, - "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" - }, - { - "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", - "decoded_text": "[UNK].. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK], [UNK], [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK]..", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'اليمن' --> '[UNK]'", - "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", - "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", - "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", - "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", - "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", - "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", - "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", - "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", - "replace text[55:60] --> decoded_text[58:63] 'مدمرة' --> '[UNK]'", - "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", - "replace text[71:76] --> decoded_text[72:77] 'ويباد' --> '[UNK]'", - "replace text[77:82] --> decoded_text[78:83] 'أهلها' --> '[UNK]'", - "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", - "replace text[94:99] --> decoded_text[92:97] 'اليمن' --> '[UNK]'", - "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", - "replace text[108:112] --> decoded_text[104:109] 'لعنة' --> '[UNK]'", - "replace text[113:121] --> decoded_text[110:115] 'الارتزاق' --> '[UNK]'", - "replace text[122:130] --> decoded_text[116:121] 'وابتلاها' --> '[UNK]'", - "replace text[131:135] --> decoded_text[122:127] 'الله' --> '[UNK]'", - "replace text[136:143] --> decoded_text[128:133] 'بقيادات' --> '[UNK]'", - "replace text[144:148] --> decoded_text[134:139] 'يممت' --> '[UNK]'", - "replace text[149:154] --> decoded_text[140:145] 'وجهها' --> '[UNK]'", - "replace text[155:158] --> decoded_text[146:151] 'صوب' --> '[UNK]'", - "replace text[159:162] --> decoded_text[152:157] 'أبو' --> '[UNK]'", - "replace text[163:166] --> decoded_text[158:163] 'ظبي' --> '[UNK]'", - "replace text[168:172] --> decoded_text[165:170] 'وصوب' --> '[UNK]'", - "replace text[173:179] --> decoded_text[171:176] 'الرياض' --> '[UNK]'", - "replace text[181:185] --> decoded_text[178:183] 'وصوب' --> '[UNK]'", - "replace text[186:192] --> decoded_text[184:189] 'واشنطن' --> '[UNK]'" - ], - "n_oov_chars": 182, - "oov_ratio": 0.9381443298969072, - "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" - } +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- [UNK] / [UNK] [UNK] [UNK] - [UNK] [UNK].. ( 1 )", + "diff": [ + "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", + "replace text[11:14] --> decoded_text[10:15] 'علي' --> '[UNK]'", + "replace text[15:19] --> decoded_text[16:21] 'محمد' --> '[UNK]'", + "replace text[20:28] --> decoded_text[22:27] 'الكحلاني' --> '[UNK]'", + "replace text[31:36] --> decoded_text[30:35] 'نصيحة' --> '[UNK]'", + "replace text[37:43] --> decoded_text[36:41] 'صادقة ' --> '[UNK]'", + "insert text[49:49] --> decoded_text[47:48] '' --> ' '" + ], + "n_oov_chars": 31, + "oov_ratio": 0.62, + "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:97] --> decoded_text[0:91] 'اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[99:247] --> decoded_text[93:250] 'ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[249:279] --> decoded_text[252:281] 'ومن اضطراب في نسيجها الاجتماعي' --> '[UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[281:389] --> decoded_text[283:398] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[391:525] --> decoded_text[400:537] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[527:785] --> decoded_text[539:798] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[787:884] --> decoded_text[800:897] 'عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '[UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[886:890] --> decoded_text[899:906] 'تردف' --> ' [UNK] '", + "replace text[892:966] --> decoded_text[908:987] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'" + ], + "n_oov_chars": 776, + "oov_ratio": 0.8033126293995859, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:49] --> decoded_text[0:59] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[51:81] --> decoded_text[61:96] 'وما شهدته البلد من مواقف عديدة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[83:151] --> decoded_text[98:163] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[153:198] --> decoded_text[165:206] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[200:337] --> decoded_text[208:351] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 333, + "oov_ratio": 0.9823008849557522, + "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \" \", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", + "replace text[6:12] --> decoded_text[6:11] 'الرسول' --> '[UNK]'", + "replace text[13:21] --> decoded_text[12:17] 'وأحاديثه' --> '[UNK]'", + "replace text[22:24] --> decoded_text[18:23] 'ما' --> '[UNK]'", + "replace text[25:27] --> decoded_text[24:29] 'هي' --> '[UNK]'", + "replace text[28:31] --> decoded_text[30:35] 'إلا' --> '[UNK]'", + "replace text[32:35] --> decoded_text[36:41] 'وحي' --> '[UNK]'", + "replace text[36:38] --> decoded_text[42:47] 'من' --> '[UNK]'", + "replace text[39:43] --> decoded_text[48:53] 'الله' --> '[UNK]'", + "replace text[46:51] --> decoded_text[56:61] 'بمعنى' --> '[UNK]'", + "replace text[52:54] --> decoded_text[62:67] 'أن' --> '[UNK]'", + "replace text[55:60] --> decoded_text[68:73] 'العمل' --> '[UNK]'", + "replace text[61:64] --> decoded_text[74:79] 'بما' --> '[UNK]'", + "replace text[65:69] --> decoded_text[80:85] 'قاله' --> '[UNK]'", + "replace text[70:76] --> decoded_text[86:91] 'الرسول' --> '[UNK]'", + "replace text[77:83] --> decoded_text[92:97] 'الأعظم' --> '[UNK]'", + "replace text[84:86] --> decoded_text[98:103] 'هو' --> '[UNK]'", + "replace text[87:94] --> decoded_text[104:109] 'مسؤولية' --> '[UNK]'", + "replace text[95:102] --> decoded_text[110:115] 'أخلاقية' --> '[UNK]'", + "replace text[103:109] --> decoded_text[116:121] 'ودينية' --> '[UNK]'", + "replace text[110:118] --> decoded_text[122:127] 'ومسؤولية' --> '[UNK]'", + "replace text[119:125] --> decoded_text[128:133] 'سياسية' --> '[UNK]'" + ], + "n_oov_chars": 123, + "oov_ratio": 0.968503937007874, + "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \" \", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", + "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", + "replace text[10:18] --> decoded_text[12:17] 'اليمنيين' --> '[UNK]'", + "replace text[19:26] --> decoded_text[18:23] 'القائمة' --> '[UNK]'", + "replace text[27:29] --> decoded_text[24:29] 'هي' --> '[UNK]'", + "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", + "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", + "replace text[41:44] --> decoded_text[43:48] 'وهل' --> '[UNK]'", + "replace text[45:47] --> decoded_text[49:54] 'من' --> '[UNK]'", + "replace text[48:54] --> decoded_text[55:60] 'الحكمة' --> '[UNK]'", + "replace text[55:57] --> decoded_text[61:66] 'أن' --> '[UNK]'", + "replace text[58:61] --> decoded_text[67:72] 'تظل' --> '[UNK]'", + "replace text[62:70] --> decoded_text[73:78] 'البندقية' --> '[UNK]'", + "replace text[71:79] --> decoded_text[79:84] 'والقذيفة' --> '[UNK]'", + "replace text[80:82] --> decoded_text[85:90] 'هي' --> '[UNK]'", + "replace text[83:88] --> decoded_text[91:96] 'وسيلة' --> '[UNK]'", + "replace text[89:95] --> decoded_text[97:102] 'الخطاب' --> '[UNK]'", + "replace text[96:103] --> decoded_text[103:108] 'والحوار' --> '[UNK]'", + "replace text[104:108] --> decoded_text[109:114] 'فيما' --> '[UNK]'", + "replace text[109:114] --> decoded_text[115:120] 'بيننا' --> '[UNK]'", + "replace text[115:118] --> decoded_text[121:126] 'نحن' --> '[UNK]'", + "replace text[119:124] --> decoded_text[127:132] 'أبناء' --> '[UNK]'", + "replace text[125:128] --> decoded_text[133:138] 'هذا' --> '[UNK]'", + "replace text[129:134] --> decoded_text[139:144] 'البلد' --> '[UNK]'", + "replace text[135:141] --> decoded_text[145:150] 'العظيم' --> '[UNK]'" + ], + "n_oov_chars": 140, + "oov_ratio": 0.9790209790209791, + "oov_charset": "[\"ف\", \"ه\", \"ل\", \" \", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'وهل' --> '[UNK]'", + "replace text[4:12] --> decoded_text[6:11] 'الانسياق' --> '[UNK]'", + "replace text[13:16] --> decoded_text[12:17] 'نحو' --> '[UNK]'", + "replace text[17:22] --> decoded_text[18:23] 'مزيدٍ' --> '[UNK]'", + "replace text[23:25] --> decoded_text[24:29] 'من' --> '[UNK]'", + "replace text[26:32] --> decoded_text[30:35] 'العناد' --> '[UNK]'", + "replace text[33:39] --> decoded_text[36:41] 'ومزيدٍ' --> '[UNK]'", + "replace text[40:42] --> decoded_text[42:47] 'من' --> '[UNK]'", + "replace text[43:51] --> decoded_text[48:53] 'الاحتقان' --> '[UNK]'", + "replace text[53:59] --> decoded_text[55:60] 'ومزيدٍ' --> '[UNK]'", + "replace text[60:62] --> decoded_text[61:66] 'من' --> '[UNK]'", + "replace text[63:71] --> decoded_text[67:72] 'الاحتراب' --> '[UNK]'", + "replace text[72:75] --> decoded_text[73:78] 'بين' --> '[UNK]'", + "replace text[76:81] --> decoded_text[79:84] 'أبناء' --> '[UNK]'", + "replace text[82:85] --> decoded_text[85:90] 'بلد' --> '[UNK]'", + "replace text[86:90] --> decoded_text[91:96] 'واحد' --> '[UNK]'", + "replace text[91:95] --> decoded_text[97:102] 'وشعب' --> '[UNK]'", + "replace text[96:100] --> decoded_text[103:108] 'واحد' --> '[UNK]'", + "replace text[101:105] --> decoded_text[109:114] 'يرضى' --> '[UNK]'", + "replace text[106:110] --> decoded_text[115:120] 'الله' --> '[UNK]'", + "replace text[111:117] --> decoded_text[121:126] 'ورسوله' --> '[UNK]'", + "replace text[118:124] --> decoded_text[127:132] 'الكريم' --> '[UNK]'", + "replace text[125:129] --> decoded_text[133:138] 'عليه' --> '[UNK]'", + "replace text[130:134] --> decoded_text[139:144] 'صلاة' --> '[UNK]'", + "replace text[135:139] --> decoded_text[145:150] 'الله' --> '[UNK]'", + "replace text[140:146] --> decoded_text[151:156] 'وسلامه' --> '[UNK]'", + "replace text[147:151] --> decoded_text[157:162] 'وعلى' --> '[UNK]'", + "replace text[152:155] --> decoded_text[163:168] 'آله' --> '[UNK]'" + ], + "n_oov_chars": 154, + "oov_ratio": 0.9808917197452229, + "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] - [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:84] --> decoded_text[0:110] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] '", + "replace text[86:107] --> decoded_text[112:135] 'وهو بلد ولاَّد بالخير' --> '[UNK] [UNK] [UNK] [UNK]'", + "replace text[109:118] --> decoded_text[137:148] 'إلى أطلال' --> '[UNK] [UNK]'", + "replace text[120:175] --> decoded_text[150:209] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[177:226] --> decoded_text[211:266] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'" + ], + "n_oov_chars": 176, + "oov_ratio": 0.7787610619469026, + "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK].. [UNK]!", + "diff": [ + "replace text[0:96] --> decoded_text[0:95] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[98:118] --> decoded_text[97:120] 'لم يسلموا ولن يسلموا' --> '[UNK] [UNK] [UNK] [UNK]'", + "replace text[121:150] --> decoded_text[123:146] 'والأعباء والمتاعب طالت الجميع' --> '[UNK] [UNK] [UNK] [UNK]'", + "replace text[152:280] --> decoded_text[148:279] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[282:392] --> decoded_text[281:394] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[394:403] --> decoded_text[396:407] 'أو أبوظبي' --> '[UNK] [UNK]'", + "replace text[405:406] --> decoded_text[409:415] '؟' --> ' [UNK]'" + ], + "n_oov_chars": 398, + "oov_ratio": 0.9778869778869779, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]!!", + "diff": [ + "replace text[0:118] --> decoded_text[0:131] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[121:245] --> decoded_text[134:271] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 243, + "oov_ratio": 0.9838056680161943, + "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "[UNK].. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK], [UNK], [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK]..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'اليمن' --> '[UNK]'", + "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", + "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", + "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", + "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", + "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", + "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", + "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", + "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", + "replace text[55:60] --> decoded_text[58:63] 'مدمرة' --> '[UNK]'", + "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", + "replace text[71:76] --> decoded_text[72:77] 'ويباد' --> '[UNK]'", + "replace text[77:82] --> decoded_text[78:83] 'أهلها' --> '[UNK]'", + "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", + "replace text[94:99] --> decoded_text[92:97] 'اليمن' --> '[UNK]'", + "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", + "replace text[108:112] --> decoded_text[104:109] 'لعنة' --> '[UNK]'", + "replace text[113:121] --> decoded_text[110:115] 'الارتزاق' --> '[UNK]'", + "replace text[122:130] --> decoded_text[116:121] 'وابتلاها' --> '[UNK]'", + "replace text[131:135] --> decoded_text[122:127] 'الله' --> '[UNK]'", + "replace text[136:143] --> decoded_text[128:133] 'بقيادات' --> '[UNK]'", + "replace text[144:148] --> decoded_text[134:139] 'يممت' --> '[UNK]'", + "replace text[149:154] --> decoded_text[140:145] 'وجهها' --> '[UNK]'", + "replace text[155:158] --> decoded_text[146:151] 'صوب' --> '[UNK]'", + "replace text[159:162] --> decoded_text[152:157] 'أبو' --> '[UNK]'", + "replace text[163:166] --> decoded_text[158:163] 'ظبي' --> '[UNK]'", + "replace text[168:172] --> decoded_text[165:170] 'وصوب' --> '[UNK]'", + "replace text[173:179] --> decoded_text[171:176] 'الرياض' --> '[UNK]'", + "replace text[181:185] --> decoded_text[178:183] 'وصوب' --> '[UNK]'", + "replace text[186:192] --> decoded_text[184:189] 'واشنطن' --> '[UNK]'" + ], + "n_oov_chars": 182, + "oov_ratio": 0.9381443298969072, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json index 14b218a13ea6cd4cae5eaa9ecca19a0cc5ff06ab..23d1eef70b0f3097d6da175953e465393b412d14 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json @@ -1,213 +1,213 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", - "diff": [ - "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", - "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", - "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", - "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", - "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", - "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", - "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", - "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", - "insert text[120:120] --> decoded_text[127:128] '' --> ' '", - "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", - "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", - "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", - "insert text[199:199] --> decoded_text[208:209] '' --> ' '", - "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", - "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", - "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.08571428571428572, - "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", - "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", - "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", - "insert text[64:64] --> decoded_text[65:66] '' --> ' '", - "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", - "insert text[74:74] --> decoded_text[77:78] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", - "diff": [ - "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", - "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", - "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", - "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", - "insert text[62:62] --> decoded_text[62:63] '' --> ' '", - "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", - "insert text[66:66] --> decoded_text[67:68] '' --> ' '", - "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", - "insert text[75:75] --> decoded_text[78:79] '' --> ' '", - "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", - "insert text[91:91] --> decoded_text[96:97] '' --> ' '", - "insert text[92:92] --> decoded_text[98:99] '' --> ' '", - "insert text[93:93] --> decoded_text[100:101] '' --> ' '", - "insert text[94:94] --> decoded_text[102:103] '' --> ' '", - "insert text[101:101] --> decoded_text[110:111] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.06796116504854369, - "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", - "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", - "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", - "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", - "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", - "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.12, - "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", - "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", - "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", - "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", - "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", - "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", - "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", - "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", - "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", - "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", - "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", - "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", - "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", - "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", - "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", - "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", - "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" - ], - "n_oov_chars": 41, - "oov_ratio": 0.06047197640117994, - "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", - "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", - "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", - "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", - "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", - "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", - "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", - "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", - "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", - "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", - "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" - ], - "n_oov_chars": 24, - "oov_ratio": 0.05429864253393665, - "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", - "diff": [ - "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", - "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", - "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", - "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", - "insert text[176:176] --> decoded_text[176:177] '' --> ' '", - "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", - "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", - "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", - "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", - "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", - "insert text[394:394] --> decoded_text[395:396] '' --> ' '", - "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.053830227743271224, - "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" - }, - { - "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", - "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", - "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", - "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", - "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", - "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.07407407407407407, - "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", - "diff": [ - "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", - "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", - "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", - "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", - "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", - "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", - "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", - "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", - "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", - "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", - "insert text[188:188] --> decoded_text[188:189] '' --> ' '" - ], - "n_oov_chars": 10, - "oov_ratio": 0.05291005291005291, - "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", - "diff": [ - "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", - "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", - "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", - "insert text[87:87] --> decoded_text[87:88] '' --> ' '", - "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", - "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", - "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", - "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", - "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", - "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", - "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", - "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", - "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", - "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", - "insert text[188:188] --> decoded_text[190:191] '' --> ' '", - "insert text[189:189] --> decoded_text[192:193] '' --> ' '" - ], - "n_oov_chars": 13, - "oov_ratio": 0.06842105263157895, - "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", + "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[127:128] '' --> ' '", + "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[208:209] '' --> ' '", + "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.08571428571428572, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "insert text[74:74] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json index 6c12c1388eb6aa809e6330a8e32781424dce53a1..2b710ca03e93e416bfc5d6fd56da62a990a44d97 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json @@ -1,172 +1,172 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", - "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[20:20] --> decoded_text[22:23] '' --> ' '", - "insert text[53:53] --> decoded_text[56:57] '' --> ' '", - "insert text[66:66] --> decoded_text[70:71] '' --> ' '", - "insert text[79:79] --> decoded_text[84:85] '' --> ' '", - "insert text[140:140] --> decoded_text[146:147] '' --> ' '", - "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", - "insert text[181:181] --> decoded_text[188:189] '' --> ' '", - "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", - "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", - "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", - "insert text[381:381] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[42:42] --> decoded_text[44:45] '' --> ' '", - "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", - "insert text[67:67] --> decoded_text[70:71] '' --> ' '", - "insert text[68:68] --> decoded_text[72:73] '' --> ' '", - "insert text[76:76] --> decoded_text[81:82] '' --> ' '", - "insert text[77:77] --> decoded_text[83:84] '' --> ' '", - "insert text[109:109] --> decoded_text[116:117] '' --> ' '", - "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "insert text[18:18] --> decoded_text[18:19] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '", - "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", - "insert text[139:139] --> decoded_text[146:147] '' --> ' '", - "insert text[140:140] --> decoded_text[148:149] '' --> ' '", - "insert text[144:144] --> decoded_text[153:154] '' --> ' '", - "insert text[145:145] --> decoded_text[155:156] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json index a41364ca331616aa48c554033ea4b69ffc857be7..4f68fa613094070d67ebecbb3918e1dd30fad07a 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json @@ -1,131 +1,131 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '", - "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.047619047619047616, - "oov_charset": "[\"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json index dc9f25ce07713b1313887bad889b62bfca32a7ea..bd753f8e816b816d57298207648c942898d01c56 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json @@ -1,171 +1,171 @@ -[ - { - "text": "آشپزخانه کوچک من: February 2012", - "decoded_text": "[UNK] [UNK] [UNK] : february 2012", - "diff": [ - "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", - "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", - "replace text[14:16] --> decoded_text[12:18] 'من' --> '[UNK] '", - "replace text[18:19] --> decoded_text[20:21] 'F' --> 'f'" - ], - "n_oov_chars": 15, - "oov_ratio": 0.4838709677419355, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\", \"F\"]" - }, - { - "text": "آشپزخانه کوچک من", - "decoded_text": "[UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", - "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", - "replace text[14:16] --> decoded_text[12:17] 'من' --> '[UNK]'" - ], - "n_oov_chars": 16, - "oov_ratio": 1.0, - "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \" \", \"ک\", \"و\", \"چ\", \"م\"]" - }, - { - "text": "بکینگ پودر:2 قاشق چای خوری", - "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", - "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", - "insert text[11:11] --> decoded_text[13:14] '' --> ' '", - "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", - "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", - "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" - ], - "n_oov_chars": 20, - "oov_ratio": 0.7692307692307693, - "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]" - }, - { - "text": "تخم مرغ:2 عدد بزرگ", - "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", - "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", - "insert text[8:8] --> decoded_text[13:14] '' --> ' '", - "replace text[10:13] --> decoded_text[16:21] 'عدد' --> '[UNK]'", - "replace text[14:18] --> decoded_text[22:27] 'بزرگ' --> '[UNK]'" - ], - "n_oov_chars": 13, - "oov_ratio": 0.7222222222222222, - "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" - }, - { - "text": "کره:225 گرم به دمای اتاق رسیده", - "decoded_text": "[UNK] : 225 [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", - "replace text[12:14] --> decoded_text[18:23] 'به' --> '[UNK]'", - "replace text[15:19] --> decoded_text[24:29] 'دمای' --> '[UNK]'", - "replace text[20:24] --> decoded_text[30:35] 'اتاق' --> '[UNK]'", - "replace text[25:30] --> decoded_text[36:41] 'رسیده' --> '[UNK]'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.7, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]" - }, - { - "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", - "decoded_text": "[UNK] : [UNK] / 2 [UNK] + 3 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", - "replace text[4:7] --> decoded_text[7:14] '1و1' --> ' [UNK] '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "replace text[10:16] --> decoded_text[18:24] 'پیمانه' --> '[UNK] '", - "replace text[20:24] --> decoded_text[28:33] 'قاشق' --> '[UNK]'", - "replace text[25:28] --> decoded_text[34:39] 'غذا' --> '[UNK]'", - "replace text[29:33] --> decoded_text[40:45] 'خوری' --> '[UNK]'" - ], - "n_oov_chars": 21, - "oov_ratio": 0.6363636363636364, - "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" - }, - { - "text": "پودر دارچین:2 و1/2قاشق چای خوری", - "decoded_text": "[UNK] [UNK] : 2 [UNK] / [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", - "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", - "insert text[12:12] --> decoded_text[13:14] '' --> ' '", - "replace text[14:16] --> decoded_text[16:22] 'و1' --> '[UNK] '", - "delete text[17:22] --> decoded_text[23:23] '2قاشق' --> ''", - "replace text[23:26] --> decoded_text[24:29] 'چای' --> '[UNK]'", - "replace text[27:31] --> decoded_text[30:41] 'خوری' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 22, - "oov_ratio": 0.7096774193548387, - "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" - }, - { - "text": "فر رو روی 350 درجه فارنهایت روشن کنید", - "decoded_text": "[UNK] [UNK] [UNK] 350 [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", - "replace text[3:5] --> decoded_text[6:11] 'رو' --> '[UNK]'", - "replace text[6:9] --> decoded_text[12:17] 'روی' --> '[UNK]'", - "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '[UNK]'", - "replace text[19:27] --> decoded_text[28:33] 'فارنهایت' --> '[UNK]'", - "replace text[28:32] --> decoded_text[34:39] 'روشن' --> '[UNK]'", - "replace text[33:37] --> decoded_text[40:45] 'کنید' --> '[UNK]'" - ], - "n_oov_chars": 34, - "oov_ratio": 0.918918918918919, - "oov_charset": "[\"ف\", \"ر\", \" \", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]" - }, - { - "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", - "replace text[4:6] --> decoded_text[6:11] 'رو' --> '[UNK]'", - "replace text[7:9] --> decoded_text[12:17] 'با' --> '[UNK]'", - "replace text[10:13] --> decoded_text[18:23] 'شکر' --> '[UNK]'", - "replace text[14:16] --> decoded_text[24:29] 'هم' --> '[UNK]'", - "replace text[17:22] --> decoded_text[30:35] 'بزنید' --> '[UNK]'", - "replace text[23:25] --> decoded_text[36:41] 'تا' --> '[UNK]'", - "replace text[26:31] --> decoded_text[42:47] 'یکدست' --> '[UNK]'", - "replace text[32:33] --> decoded_text[48:53] 'و' --> '[UNK]'", - "replace text[34:38] --> decoded_text[54:59] 'کرمی' --> '[UNK]'", - "replace text[39:42] --> decoded_text[60:65] 'بشه' --> '[UNK]'", - "replace text[43:46] --> decoded_text[66:71] 'تخم' --> '[UNK]'", - "replace text[47:52] --> decoded_text[72:77] 'مرغها' --> '[UNK]'", - "replace text[53:55] --> decoded_text[78:83] 'رو' --> '[UNK]'", - "replace text[56:60] --> decoded_text[84:89] 'دونه' --> '[UNK]'", - "replace text[61:65] --> decoded_text[90:95] 'دونه' --> '[UNK]'", - "replace text[66:71] --> decoded_text[96:101] 'اضافه' --> '[UNK]'", - "replace text[72:76] --> decoded_text[102:107] 'کنید' --> '[UNK]'", - "replace text[77:78] --> decoded_text[108:113] 'و' --> '[UNK]'", - "replace text[79:81] --> decoded_text[114:119] 'هم' --> '[UNK]'", - "replace text[82:87] --> decoded_text[120:125] 'بزنید' --> '[UNK]'" - ], - "n_oov_chars": 87, - "oov_ratio": 1.0, - "oov_charset": "[\"ک\", \"ر\", \"ه\", \" \", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" - }, - { - "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'ارد' --> '[UNK]'", - "replace text[4:5] --> decoded_text[6:11] 'و' --> '[UNK]'", - "replace text[6:11] --> decoded_text[12:17] 'بکینگ' --> '[UNK]'", - "replace text[12:16] --> decoded_text[18:23] 'پودر' --> '[UNK]'", - "replace text[17:18] --> decoded_text[24:29] 'و' --> '[UNK]'", - "replace text[19:22] --> decoded_text[30:35] 'نمک' --> '[UNK]'", - "replace text[23:25] --> decoded_text[36:41] 'رو' --> '[UNK]'", - "replace text[26:29] --> decoded_text[42:47] 'الک' --> '[UNK]'", - "replace text[30:34] --> decoded_text[48:53] 'کنید' --> '[UNK]'", - "replace text[35:36] --> decoded_text[54:59] 'و' --> '[UNK]'", - "replace text[37:42] --> decoded_text[60:65] 'اضافه' --> '[UNK]'", - "replace text[43:47] --> decoded_text[66:71] 'کنید' --> '[UNK]'" - ], - "n_oov_chars": 47, - "oov_ratio": 1.0, - "oov_charset": "[\"ا\", \"ر\", \"د\", \" \", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]" - } +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "[UNK] [UNK] [UNK] : february 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "replace text[14:16] --> decoded_text[12:18] 'من' --> '[UNK] '", + "replace text[18:19] --> decoded_text[20:21] 'F' --> 'f'" + ], + "n_oov_chars": 15, + "oov_ratio": 0.4838709677419355, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "[UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "replace text[14:16] --> decoded_text[12:17] 'من' --> '[UNK]'" + ], + "n_oov_chars": 16, + "oov_ratio": 1.0, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \" \", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", + "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", + "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", + "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.7692307692307693, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", + "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[10:13] --> decoded_text[16:21] 'عدد' --> '[UNK]'", + "replace text[14:18] --> decoded_text[22:27] 'بزرگ' --> '[UNK]'" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "[UNK] : 225 [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", + "replace text[12:14] --> decoded_text[18:23] 'به' --> '[UNK]'", + "replace text[15:19] --> decoded_text[24:29] 'دمای' --> '[UNK]'", + "replace text[20:24] --> decoded_text[30:35] 'اتاق' --> '[UNK]'", + "replace text[25:30] --> decoded_text[36:41] 'رسیده' --> '[UNK]'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.7, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "[UNK] : [UNK] / 2 [UNK] + 3 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", + "replace text[4:7] --> decoded_text[7:14] '1و1' --> ' [UNK] '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "replace text[10:16] --> decoded_text[18:24] 'پیمانه' --> '[UNK] '", + "replace text[20:24] --> decoded_text[28:33] 'قاشق' --> '[UNK]'", + "replace text[25:28] --> decoded_text[34:39] 'غذا' --> '[UNK]'", + "replace text[29:33] --> decoded_text[40:45] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.6363636363636364, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] / [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", + "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "replace text[14:16] --> decoded_text[16:22] 'و1' --> '[UNK] '", + "delete text[17:22] --> decoded_text[23:23] '2قاشق' --> ''", + "replace text[23:26] --> decoded_text[24:29] 'چای' --> '[UNK]'", + "replace text[27:31] --> decoded_text[30:41] 'خوری' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.7096774193548387, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "[UNK] [UNK] [UNK] 350 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", + "replace text[3:5] --> decoded_text[6:11] 'رو' --> '[UNK]'", + "replace text[6:9] --> decoded_text[12:17] 'روی' --> '[UNK]'", + "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '[UNK]'", + "replace text[19:27] --> decoded_text[28:33] 'فارنهایت' --> '[UNK]'", + "replace text[28:32] --> decoded_text[34:39] 'روشن' --> '[UNK]'", + "replace text[33:37] --> decoded_text[40:45] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 34, + "oov_ratio": 0.918918918918919, + "oov_charset": "[\"ف\", \"ر\", \" \", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", + "replace text[4:6] --> decoded_text[6:11] 'رو' --> '[UNK]'", + "replace text[7:9] --> decoded_text[12:17] 'با' --> '[UNK]'", + "replace text[10:13] --> decoded_text[18:23] 'شکر' --> '[UNK]'", + "replace text[14:16] --> decoded_text[24:29] 'هم' --> '[UNK]'", + "replace text[17:22] --> decoded_text[30:35] 'بزنید' --> '[UNK]'", + "replace text[23:25] --> decoded_text[36:41] 'تا' --> '[UNK]'", + "replace text[26:31] --> decoded_text[42:47] 'یکدست' --> '[UNK]'", + "replace text[32:33] --> decoded_text[48:53] 'و' --> '[UNK]'", + "replace text[34:38] --> decoded_text[54:59] 'کرمی' --> '[UNK]'", + "replace text[39:42] --> decoded_text[60:65] 'بشه' --> '[UNK]'", + "replace text[43:46] --> decoded_text[66:71] 'تخم' --> '[UNK]'", + "replace text[47:52] --> decoded_text[72:77] 'مرغها' --> '[UNK]'", + "replace text[53:55] --> decoded_text[78:83] 'رو' --> '[UNK]'", + "replace text[56:60] --> decoded_text[84:89] 'دونه' --> '[UNK]'", + "replace text[61:65] --> decoded_text[90:95] 'دونه' --> '[UNK]'", + "replace text[66:71] --> decoded_text[96:101] 'اضافه' --> '[UNK]'", + "replace text[72:76] --> decoded_text[102:107] 'کنید' --> '[UNK]'", + "replace text[77:78] --> decoded_text[108:113] 'و' --> '[UNK]'", + "replace text[79:81] --> decoded_text[114:119] 'هم' --> '[UNK]'", + "replace text[82:87] --> decoded_text[120:125] 'بزنید' --> '[UNK]'" + ], + "n_oov_chars": 87, + "oov_ratio": 1.0, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \" \", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'ارد' --> '[UNK]'", + "replace text[4:5] --> decoded_text[6:11] 'و' --> '[UNK]'", + "replace text[6:11] --> decoded_text[12:17] 'بکینگ' --> '[UNK]'", + "replace text[12:16] --> decoded_text[18:23] 'پودر' --> '[UNK]'", + "replace text[17:18] --> decoded_text[24:29] 'و' --> '[UNK]'", + "replace text[19:22] --> decoded_text[30:35] 'نمک' --> '[UNK]'", + "replace text[23:25] --> decoded_text[36:41] 'رو' --> '[UNK]'", + "replace text[26:29] --> decoded_text[42:47] 'الک' --> '[UNK]'", + "replace text[30:34] --> decoded_text[48:53] 'کنید' --> '[UNK]'", + "replace text[35:36] --> decoded_text[54:59] 'و' --> '[UNK]'", + "replace text[37:42] --> decoded_text[60:65] 'اضافه' --> '[UNK]'", + "replace text[43:47] --> decoded_text[66:71] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 1.0, + "oov_charset": "[\"ا\", \"ر\", \"د\", \" \", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json index 40740d2c17d1cf8fb9cd3e64f6345aff9409f678..c1d159743f25004a25caf86585e30e1f13054cc7 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:37] --> decoded_text[0:125] '午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 37, - "oov_ratio": 1.0, - "oov_charset": "[\"午\", \"後\", \"か\", \"ら\", \"雨\", \"が\", \"心\", \"配\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"出\", \"は\", \"せ\", \"ず\", \"、\", \"『\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"』\", \"を\", \"走\", \"て\", \"来\", \"ま\", \"し\", \"!\"]" - }, - { - "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:67] --> decoded_text[0:209] '確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 67, - "oov_ratio": 1.0, - "oov_charset": "[\"確\", \"実\", \"に\", \"春\", \"が\", \"近\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"肌\", \"で\", \"感\", \"じ\", \"出\", \"来\", \"ま\", \"し\", \"た\", \" \", \"着\", \"々\", \"整\", \"備\", \"さ\", \"れ\", \"圏\", \"央\", \"道\", \"越\", \"え\", \"お\", \"世\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\", \"。\"]" - }, - { - "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:46] --> decoded_text[0:119] 'うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 46, - "oov_ratio": 1.0, - "oov_charset": "[\"う\", \"ぅ\", \"〜\", \"、\", \"私\", \"が\", \"途\", \"中\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"行\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"通\", \"り\", \"道\", \"あ\", \"ケ\", \"ン\", \"タ\", \"変\", \"更\", \"ち\", \"ゃ\", \"。\"]" - }, - { - "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:49] --> decoded_text[0:185] '実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 49, - "oov_ratio": 1.0, - "oov_charset": "[\"実\", \"は\", \"、\", \"1\", \"年\", \"程\", \"前\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"右\", \"目\", \"黒\", \"端\", \"よ\", \"〜\", \"く\", \"見\", \"な\", \"い\", \"と\", \"分\", \"か\", \"ら\", \"小\", \"さ\", \"斑\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\", \"。\"]" - }, - { - "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:43] --> decoded_text[0:101] 'その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 43, - "oov_ratio": 1.0, - "oov_charset": "[\"そ\", \"の\", \"時\", \"点\", \"で\", \"先\", \"生\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"『\", \"角\", \"膜\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"』\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"断\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\", \"。\"]" - }, - { - "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:43] --> decoded_text[0:95] 'エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 42, - "oov_ratio": 0.9767441860465116, - "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"合\", \"は\", \"年\", \"程\", \"経\", \"過\", \"し\", \"て\", \"徐\", \"々\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"、\", \"少\", \"大\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]" - }, - { - "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:60] --> decoded_text[0:125] 'ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 60, - "oov_ratio": 1.0, - "oov_charset": "[\"た\", \"だ\", \"、\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"散\", \"歩\", \"仲\", \"間\", \"か\", \"ら\", \"は\", \"指\", \"摘\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"言\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"目\", \"立\", \"つ\", \"程\", \"す\", \"ど\", \"ね\", \"。\"]" - }, - { - "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:40] --> decoded_text[0:101] '昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 40, - "oov_ratio": 1.0, - "oov_charset": "[\"昔\", \"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"酸\", \"の\", \"目\", \"薬\", \"な\", \"ど\", \"も\", \"処\", \"方\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"、\", \"こ\", \"効\", \"く\", \"事\", \"い\", \"そ\", \"。\"]" - }, - { - "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:27] --> decoded_text[0:5] 'なので、エルディとのお散歩でも訪れたことがありません。' --> '[UNK]'", - "replace text[28:64] --> decoded_text[6:155] 'カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 64, - "oov_ratio": 1.0, - "oov_charset": "[\"な\", \"の\", \"で\", \"、\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"散\", \"歩\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"。\", \" \", \"カ\", \"タ\", \"ク\", \"リ\", \"花\", \"5\", \"分\", \"咲\", \"き\", \"情\", \"報\", \"か\", \"ら\", \"今\", \"回\", \"コ\", \"ー\", \"ス\", \"1\", \"つ\", \"に\", \"取\", \"入\", \"て\", \"み\", \"し\"]" - }, - { - "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:71] --> decoded_text[0:125] '前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 71, - "oov_ratio": 1.0, - "oov_charset": "[\"前\", \"々\", \"か\", \"ら\", \"走\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"、\", \"い\", \"つ\", \"も\", \"陸\", \"上\", \"部\", \"し\", \"き\", \"学\", \"生\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"駆\", \"抜\", \"く\", \"を\", \"目\", \"当\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]" - } +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:37] --> decoded_text[0:125] '午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 37, + "oov_ratio": 1.0, + "oov_charset": "[\"午\", \"後\", \"か\", \"ら\", \"雨\", \"が\", \"心\", \"配\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"出\", \"は\", \"せ\", \"ず\", \"、\", \"『\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"』\", \"を\", \"走\", \"て\", \"来\", \"ま\", \"し\", \"!\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:67] --> decoded_text[0:209] '確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 67, + "oov_ratio": 1.0, + "oov_charset": "[\"確\", \"実\", \"に\", \"春\", \"が\", \"近\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"肌\", \"で\", \"感\", \"じ\", \"出\", \"来\", \"ま\", \"し\", \"た\", \" \", \"着\", \"々\", \"整\", \"備\", \"さ\", \"れ\", \"圏\", \"央\", \"道\", \"越\", \"え\", \"お\", \"世\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\", \"。\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:46] --> decoded_text[0:119] 'うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 46, + "oov_ratio": 1.0, + "oov_charset": "[\"う\", \"ぅ\", \"〜\", \"、\", \"私\", \"が\", \"途\", \"中\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"行\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"通\", \"り\", \"道\", \"あ\", \"ケ\", \"ン\", \"タ\", \"変\", \"更\", \"ち\", \"ゃ\", \"。\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:49] --> decoded_text[0:185] '実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 49, + "oov_ratio": 1.0, + "oov_charset": "[\"実\", \"は\", \"、\", \"1\", \"年\", \"程\", \"前\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"右\", \"目\", \"黒\", \"端\", \"よ\", \"〜\", \"く\", \"見\", \"な\", \"い\", \"と\", \"分\", \"か\", \"ら\", \"小\", \"さ\", \"斑\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\", \"。\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:101] 'その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 43, + "oov_ratio": 1.0, + "oov_charset": "[\"そ\", \"の\", \"時\", \"点\", \"で\", \"先\", \"生\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"『\", \"角\", \"膜\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"』\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"断\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\", \"。\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:95] 'エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 42, + "oov_ratio": 0.9767441860465116, + "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"合\", \"は\", \"年\", \"程\", \"経\", \"過\", \"し\", \"て\", \"徐\", \"々\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"、\", \"少\", \"大\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:60] --> decoded_text[0:125] 'ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 60, + "oov_ratio": 1.0, + "oov_charset": "[\"た\", \"だ\", \"、\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"散\", \"歩\", \"仲\", \"間\", \"か\", \"ら\", \"は\", \"指\", \"摘\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"言\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"目\", \"立\", \"つ\", \"程\", \"す\", \"ど\", \"ね\", \"。\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:40] --> decoded_text[0:101] '昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 40, + "oov_ratio": 1.0, + "oov_charset": "[\"昔\", \"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"酸\", \"の\", \"目\", \"薬\", \"な\", \"ど\", \"も\", \"処\", \"方\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"、\", \"こ\", \"効\", \"く\", \"事\", \"い\", \"そ\", \"。\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:27] --> decoded_text[0:5] 'なので、エルディとのお散歩でも訪れたことがありません。' --> '[UNK]'", + "replace text[28:64] --> decoded_text[6:155] 'カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 64, + "oov_ratio": 1.0, + "oov_charset": "[\"な\", \"の\", \"で\", \"、\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"散\", \"歩\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"。\", \" \", \"カ\", \"タ\", \"ク\", \"リ\", \"花\", \"5\", \"分\", \"咲\", \"き\", \"情\", \"報\", \"か\", \"ら\", \"今\", \"回\", \"コ\", \"ー\", \"ス\", \"1\", \"つ\", \"に\", \"取\", \"入\", \"て\", \"み\", \"し\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:71] --> decoded_text[0:125] '前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 71, + "oov_ratio": 1.0, + "oov_charset": "[\"前\", \"々\", \"か\", \"ら\", \"走\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"、\", \"い\", \"つ\", \"も\", \"陸\", \"上\", \"部\", \"し\", \"き\", \"学\", \"生\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"駆\", \"抜\", \"く\", \"を\", \"目\", \"当\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json index e6fd13c2ce26f04099767db90c454baa0c1aa023..efbd132bcd3044bd401f17f49ae93e9a294c3e6f 100644 --- a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json @@ -1,259 +1,259 @@ -[ - { - "text": "+ HOME > 라이브스코어", - "decoded_text": "+ home > [UNK]", - "diff": [ - "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", - "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.6666666666666666, - "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" - }, - { - "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", - "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'", - "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "delete text[9:12] --> decoded_text[16:16] '17번' --> ''", - "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'", - "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'", - "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'", - "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", - "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 26, - "oov_ratio": 0.65, - "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" - }, - { - "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", - "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", - "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", - "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", - "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'", - "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'", - "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'", - "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'", - "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", - "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", - "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'", - "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'", - "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'", - "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'", - "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'", - "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'", - "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'" - ], - "n_oov_chars": 47, - "oov_ratio": 0.7230769230769231, - "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" - }, - { - "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", - "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'", - "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"", - "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'", - "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'", - "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'", - "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'", - "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'", - "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'", - "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'", - "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'", - "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'", - "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'", - "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'", - "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'", - "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'", - "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'" - ], - "n_oov_chars": 55, - "oov_ratio": 0.7432432432432432, - "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" - }, - { - "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", - "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", - "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", - "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'", - "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '", - "insert text[22:22] --> decoded_text[31:32] '' --> ' '", - "delete text[24:26] --> decoded_text[34:34] ')는' --> ''", - "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''", - "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '", - "insert text[56:56] --> decoded_text[79:80] '' --> ' '", - "insert text[59:59] --> decoded_text[83:84] '' --> '.'", - "delete text[60:61] --> decoded_text[85:85] '.' --> ''", - "insert text[64:64] --> decoded_text[88:89] '' --> '.'", - "delete text[65:66] --> decoded_text[90:90] '.' --> ''", - "insert text[69:69] --> decoded_text[93:94] '' --> ' '", - "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'", - "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'", - "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'", - "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'", - "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'", - "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'", - "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'", - "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.5849056603773585, - "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" - }, - { - "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'", - "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'", - "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'", - "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'", - "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'", - "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'", - "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'", - "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'", - "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '", - "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '", - "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''", - "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'", - "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'", - "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'", - "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'", - "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'", - "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'", - "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'", - "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'", - "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'", - "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '", - "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '", - "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '", - "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''", - "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'", - "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'", - "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 66, - "oov_ratio": 0.5945945945945946, - "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" - }, - { - "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", - "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'", - "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'", - "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'", - "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'", - "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'", - "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'", - "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'", - "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'", - "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'", - "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'", - "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'", - "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'", - "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'", - "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'", - "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", - "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'", - "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"", - "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'", - "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'", - "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", - "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'", - "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'" - ], - "n_oov_chars": 101, - "oov_ratio": 0.9439252336448598, - "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" - }, - { - "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", - "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'", - "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'", - "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'", - "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'", - "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'", - "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'", - "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'", - "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'", - "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'", - "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'", - "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'", - "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'", - "delete text[58:59] --> decoded_text[75:75] '빅' --> ''", - "replace text[60:63] --> decoded_text[76:88] '사이닝' --> '[UNK] [UNK] '", - "delete text[64:65] --> decoded_text[89:89] '을' --> ''", - "replace text[66:68] --> decoded_text[90:95] '통해' --> '[UNK]'", - "replace text[69:74] --> decoded_text[96:101] '유벤투스로' --> '[UNK]'", - "replace text[75:78] --> decoded_text[102:107] '옮겼기' --> '[UNK]'", - "replace text[79:83] --> decoded_text[108:119] '때문이다' --> '[UNK] [UNK]'" - ], - "n_oov_chars": 62, - "oov_ratio": 0.7380952380952381, - "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" - }, - { - "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", - "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'", - "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'", - "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'", - "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'", - "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'", - "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'" - ], - "n_oov_chars": 39, - "oov_ratio": 0.975, - "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" - }, - { - "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'", - "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'", - "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'", - "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'", - "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'", - "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'", - "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'", - "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'", - "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'", - "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'", - "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'", - "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'", - "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'", - "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'", - "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'", - "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'", - "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'", - "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'", - "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'", - "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'", - "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'", - "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'", - "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'", - "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'", - "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'" - ], - "n_oov_chars": 95, - "oov_ratio": 0.9693877551020408, - "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" - } +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > [UNK]", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'", + "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "delete text[9:12] --> decoded_text[16:16] '17번' --> ''", + "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'", + "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'", + "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'", + "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", + "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", + "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", + "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", + "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'", + "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'", + "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'", + "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'", + "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", + "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'", + "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'", + "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"", + "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'", + "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'", + "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'", + "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'", + "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'", + "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'", + "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'", + "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'", + "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'", + "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'", + "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'", + "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", + "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", + "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "delete text[24:26] --> decoded_text[34:34] ')는' --> ''", + "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''", + "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '", + "insert text[56:56] --> decoded_text[79:80] '' --> ' '", + "insert text[59:59] --> decoded_text[83:84] '' --> '.'", + "delete text[60:61] --> decoded_text[85:85] '.' --> ''", + "insert text[64:64] --> decoded_text[88:89] '' --> '.'", + "delete text[65:66] --> decoded_text[90:90] '.' --> ''", + "insert text[69:69] --> decoded_text[93:94] '' --> ' '", + "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'", + "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'", + "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'", + "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'", + "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'", + "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'", + "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'", + "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'", + "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'", + "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'", + "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'", + "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'", + "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'", + "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'", + "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'", + "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '", + "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '", + "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''", + "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'", + "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'", + "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'", + "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'", + "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'", + "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'", + "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'", + "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'", + "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '", + "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '", + "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '", + "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''", + "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'", + "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'", + "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'", + "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'", + "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'", + "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'", + "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'", + "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'", + "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'", + "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'", + "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"", + "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'", + "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'", + "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", + "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'", + "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'" + ], + "n_oov_chars": 101, + "oov_ratio": 0.9439252336448598, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'", + "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'", + "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'", + "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'", + "delete text[58:59] --> decoded_text[75:75] '빅' --> ''", + "replace text[60:63] --> decoded_text[76:88] '사이닝' --> '[UNK] [UNK] '", + "delete text[64:65] --> decoded_text[89:89] '을' --> ''", + "replace text[66:68] --> decoded_text[90:95] '통해' --> '[UNK]'", + "replace text[69:74] --> decoded_text[96:101] '유벤투스로' --> '[UNK]'", + "replace text[75:78] --> decoded_text[102:107] '옮겼기' --> '[UNK]'", + "replace text[79:83] --> decoded_text[108:119] '때문이다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'", + "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'", + "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'" + ], + "n_oov_chars": 39, + "oov_ratio": 0.975, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'", + "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'", + "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'", + "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'", + "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'", + "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'", + "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'", + "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'" + ], + "n_oov_chars": 95, + "oov_ratio": 0.9693877551020408, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json index 82b966e711b62fae26620b53c0cb26a287651f77..588152eab38607bf56c78f174a7f63d8d38549fb 100644 --- a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json @@ -1,12 +1,12 @@ -[ - { - "text": "من طرف A.Höganäs في الأحد سبتمبر 20, 2009 2:44 am", - "decoded_text": "من طرف A.H�ganäs في الأحد سبتمبر 20, 2009 2:44 am", - "diff": [ - "replace text[10:11] --> decoded_text[10:11] 'ö' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"ö\"]" - } +[ + { + "text": "من طرف A.Höganäs في الأحد سبتمبر 20, 2009 2:44 am", + "decoded_text": "من طرف A.H�ganäs في الأحد سبتمبر 20, 2009 2:44 am", + "diff": [ + "replace text[10:11] --> decoded_text[10:11] 'ö' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"ö\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json index 9a351f31eea893286fa0dc45a012723830a64ae5..1890e724ecc3e5f4e09ccf1268cc6b05efa102be 100644 --- a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json @@ -1,121 +1,121 @@ -[ - { - "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", - "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „P�ngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h�ren. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f�r die Gäste.", - "diff": [ - "replace text[60:61] --> decoded_text[60:61] 'ü' --> '�'", - "replace text[159:160] --> decoded_text[159:160] 'ö' --> '�'", - "replace text[267:268] --> decoded_text[267:268] 'ü' --> '�'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010714285714285714, - "oov_charset": "[\"ü\", \"ö\"]" - }, - { - "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", - "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „P�ngel-Weihnacht“ an.", - "diff": [ - "replace text[59:60] --> decoded_text[59:60] 'ü' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.012658227848101266, - "oov_charset": "[\"ü\"]" - }, - { - "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "decoded_text": "02683 967019. Die Karten k�nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", - "diff": [ - "replace text[26:27] --> decoded_text[26:27] 'ö' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.009708737864077669, - "oov_charset": "[\"ö\"]" - }, - { - "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", - "decoded_text": "Der Chor w�nscht Ihnen schon jetzt viel Vergn�gen.", - "diff": [ - "replace text[10:11] --> decoded_text[10:11] 'ü' --> '�'", - "replace text[45:46] --> decoded_text[45:46] 'ü' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.04, - "oov_charset": "[\"ü\"]" - }, - { - "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", - "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder �ber ein auf der Internetseite befindliches Webformular, an den f�r die Verarbeitung Verantwortlichen �bermittelt. Sollten Sie �ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf�gen, k�nnen wir die Daten auch von Ihrer �ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchf�hrung des Bewerbungsverfahrens.", - "diff": [ - "replace text[211:212] --> decoded_text[211:212] 'ü' --> '�'", - "replace text[276:277] --> decoded_text[276:277] 'ü' --> '�'", - "replace text[313:314] --> decoded_text[313:314] 'ü' --> '�'", - "replace text[338:339] --> decoded_text[338:339] 'ü' --> '�'", - "replace text[435:436] --> decoded_text[435:436] 'ü' --> '�'", - "replace text[442:443] --> decoded_text[442:443] 'ö' --> '�'", - "replace text[477:478] --> decoded_text[477:478] 'ö' --> '�'", - "replace text[646:647] --> decoded_text[646:647] 'ü' --> '�'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.011799410029498525, - "oov_charset": "[\"ü\", \"ö\"]" - }, - { - "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", - "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die �bermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel�scht, sofern einer L�schung keine sonstigen berechtigten Interessen des f�r die Verarbeitung Verantwortlichen entgegenstehen.", - "diff": [ - "replace text[77:78] --> decoded_text[77:78] 'ü' --> '�'", - "replace text[316:317] --> decoded_text[316:317] 'ö' --> '�'", - "replace text[337:338] --> decoded_text[337:338] 'ö' --> '�'", - "replace text[390:391] --> decoded_text[390:391] 'ü' --> '�'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.00904977375565611, - "oov_charset": "[\"ü\", \"ö\"]" - }, - { - "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", - "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf�llung unserer vertraglichen und gesetzlichen Pflichten (wie F�hrungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung �ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben�tigen.", - "diff": [ - "replace text[119:120] --> decoded_text[119:120] 'ü' --> '�'", - "replace text[181:182] --> decoded_text[181:182] 'ü' --> '�'", - "replace text[280:281] --> decoded_text[280:281] 'ü' --> '�'", - "replace text[476:477] --> decoded_text[476:477] 'ö' --> '�'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.008281573498964804, - "oov_charset": "[\"ü\", \"ö\"]" - }, - { - "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", - "decoded_text": "bei denen wir zur Erf�llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im �ffentlichen Interesse liegt;", - "diff": [ - "replace text[21:22] --> decoded_text[21:22] 'ü' --> '�'", - "replace text[160:161] --> decoded_text[160:161] 'ö' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010582010582010581, - "oov_charset": "[\"ü\", \"ö\"]" - }, - { - "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh�rden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", - "diff": [ - "replace text[98:99] --> decoded_text[98:99] 'ö' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005263157894736842, - "oov_charset": "[\"ö\"]" - }, - { - "text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies für die Entscheidung über die Begründung eines Beschäftigungsverhältnisses erforderlich ist.", - "decoded_text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies f�r die Entscheidung �ber die Begr�ndung eines Beschäftigungsverhältnisses erforderlich ist.", - "diff": [ - "replace text[104:105] --> decoded_text[104:105] 'ü' --> '�'", - "replace text[124:125] --> decoded_text[124:125] 'ü' --> '�'", - "replace text[137:138] --> decoded_text[137:138] 'ü' --> '�'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"ü\"]" - } +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „P�ngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h�ren. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f�r die Gäste.", + "diff": [ + "replace text[60:61] --> decoded_text[60:61] 'ü' --> '�'", + "replace text[159:160] --> decoded_text[159:160] 'ö' --> '�'", + "replace text[267:268] --> decoded_text[267:268] 'ü' --> '�'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010714285714285714, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „P�ngel-Weihnacht“ an.", + "diff": [ + "replace text[59:60] --> decoded_text[59:60] 'ü' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"ü\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. Die Karten k�nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] 'ö' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009708737864077669, + "oov_charset": "[\"ö\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "Der Chor w�nscht Ihnen schon jetzt viel Vergn�gen.", + "diff": [ + "replace text[10:11] --> decoded_text[10:11] 'ü' --> '�'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04, + "oov_charset": "[\"ü\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder �ber ein auf der Internetseite befindliches Webformular, an den f�r die Verarbeitung Verantwortlichen �bermittelt. Sollten Sie �ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf�gen, k�nnen wir die Daten auch von Ihrer �ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchf�hrung des Bewerbungsverfahrens.", + "diff": [ + "replace text[211:212] --> decoded_text[211:212] 'ü' --> '�'", + "replace text[276:277] --> decoded_text[276:277] 'ü' --> '�'", + "replace text[313:314] --> decoded_text[313:314] 'ü' --> '�'", + "replace text[338:339] --> decoded_text[338:339] 'ü' --> '�'", + "replace text[435:436] --> decoded_text[435:436] 'ü' --> '�'", + "replace text[442:443] --> decoded_text[442:443] 'ö' --> '�'", + "replace text[477:478] --> decoded_text[477:478] 'ö' --> '�'", + "replace text[646:647] --> decoded_text[646:647] 'ü' --> '�'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.011799410029498525, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die �bermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel�scht, sofern einer L�schung keine sonstigen berechtigten Interessen des f�r die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[77:78] --> decoded_text[77:78] 'ü' --> '�'", + "replace text[316:317] --> decoded_text[316:317] 'ö' --> '�'", + "replace text[337:338] --> decoded_text[337:338] 'ö' --> '�'", + "replace text[390:391] --> decoded_text[390:391] 'ü' --> '�'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.00904977375565611, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf�llung unserer vertraglichen und gesetzlichen Pflichten (wie F�hrungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung �ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben�tigen.", + "diff": [ + "replace text[119:120] --> decoded_text[119:120] 'ü' --> '�'", + "replace text[181:182] --> decoded_text[181:182] 'ü' --> '�'", + "replace text[280:281] --> decoded_text[280:281] 'ü' --> '�'", + "replace text[476:477] --> decoded_text[476:477] 'ö' --> '�'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.008281573498964804, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur Erf�llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im �ffentlichen Interesse liegt;", + "diff": [ + "replace text[21:22] --> decoded_text[21:22] 'ü' --> '�'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010582010582010581, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh�rden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "diff": [ + "replace text[98:99] --> decoded_text[98:99] 'ö' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005263157894736842, + "oov_charset": "[\"ö\"]" + }, + { + "text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies für die Entscheidung über die Begründung eines Beschäftigungsverhältnisses erforderlich ist.", + "decoded_text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies f�r die Entscheidung �ber die Begr�ndung eines Beschäftigungsverhältnisses erforderlich ist.", + "diff": [ + "replace text[104:105] --> decoded_text[104:105] 'ü' --> '�'", + "replace text[124:125] --> decoded_text[124:125] 'ü' --> '�'", + "replace text[137:138] --> decoded_text[137:138] 'ü' --> '�'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"ü\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json index 3144d16a9f0c55b50b5ec7730bc85aa25bf5e59d..f95238ee5dc93f57ffa33c3dde969eaaeb0e14c2 100644 --- a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. El período o períodos de su disfrute se fijará de com�n", - "diff": [ - "replace text[56:57] --> decoded_text[56:57] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"ú\"]" - }, - { - "text": "El segundo párrafo de este número ha sido incorporado por:", - "decoded_text": "El segundo párrafo de este n�mero ha sido incorporado por:", - "diff": [ - "replace text[28:29] --> decoded_text[28:29] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"ú\"]" - }, - { - "text": "en ningún caso, podrá suponer la ampliación del número de", - "decoded_text": "en ning�n caso, podrá suponer la ampliación del n�mero de", - "diff": [ - "replace text[7:8] --> decoded_text[7:8] 'ú' --> '�'", - "replace text[49:50] --> decoded_text[49:50] 'ú' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"ú\"]" - }, - { - "text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por último, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", - "decoded_text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por �ltimo, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", - "diff": [ - "replace text[112:113] --> decoded_text[112:113] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002506265664160401, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Podemos emplear algún gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", - "decoded_text": "Podemos emplear alg�n gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0037593984962406013, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados músculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", - "decoded_text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados m�sculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", - "diff": [ - "replace text[126:127] --> decoded_text[126:127] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0026954177897574125, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las múltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", - "decoded_text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las m�ltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", - "diff": [ - "replace text[102:103] --> decoded_text[102:103] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0035460992907801418, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "S�per! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013157894736842105, - "oov_charset": "[\"ú\"]" - }, - { - "text": "nstagram es la red social de mayor crecimiento en los últimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle algún provecho a nuestro ingenio.", - "decoded_text": "nstagram es la red social de mayor crecimiento en los �ltimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle alg�n provecho a nuestro ingenio.", - "diff": [ - "replace text[54:55] --> decoded_text[54:55] 'ú' --> '�'", - "replace text[319:320] --> decoded_text[319:320] 'ú' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.0057306590257879654, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en número de contactos y seguidores.", - "decoded_text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en n�mero de contactos y seguidores.", - "diff": [ - "replace text[353:354] --> decoded_text[353:354] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0025974025974025974, - "oov_charset": "[\"ú\"]" - } +[ + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El período o períodos de su disfrute se fijará de com�n", + "diff": [ + "replace text[56:57] --> decoded_text[56:57] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este n�mero ha sido incorporado por:", + "diff": [ + "replace text[28:29] --> decoded_text[28:29] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "en ningún caso, podrá suponer la ampliación del número de", + "decoded_text": "en ning�n caso, podrá suponer la ampliación del n�mero de", + "diff": [ + "replace text[7:8] --> decoded_text[7:8] 'ú' --> '�'", + "replace text[49:50] --> decoded_text[49:50] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"ú\"]" + }, + { + "text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por último, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "decoded_text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por �ltimo, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "diff": [ + "replace text[112:113] --> decoded_text[112:113] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002506265664160401, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Podemos emplear algún gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "decoded_text": "Podemos emplear alg�n gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0037593984962406013, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados músculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "decoded_text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados m�sculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "diff": [ + "replace text[126:127] --> decoded_text[126:127] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0026954177897574125, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las múltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "decoded_text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las m�ltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "diff": [ + "replace text[102:103] --> decoded_text[102:103] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0035460992907801418, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "S�per! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013157894736842105, + "oov_charset": "[\"ú\"]" + }, + { + "text": "nstagram es la red social de mayor crecimiento en los últimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle algún provecho a nuestro ingenio.", + "decoded_text": "nstagram es la red social de mayor crecimiento en los �ltimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle alg�n provecho a nuestro ingenio.", + "diff": [ + "replace text[54:55] --> decoded_text[54:55] 'ú' --> '�'", + "replace text[319:320] --> decoded_text[319:320] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0057306590257879654, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en número de contactos y seguidores.", + "decoded_text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en n�mero de contactos y seguidores.", + "diff": [ + "replace text[353:354] --> decoded_text[353:354] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0025974025974025974, + "oov_charset": "[\"ú\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json index 3144d16a9f0c55b50b5ec7730bc85aa25bf5e59d..f95238ee5dc93f57ffa33c3dde969eaaeb0e14c2 100644 --- a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. El período o períodos de su disfrute se fijará de com�n", - "diff": [ - "replace text[56:57] --> decoded_text[56:57] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"ú\"]" - }, - { - "text": "El segundo párrafo de este número ha sido incorporado por:", - "decoded_text": "El segundo párrafo de este n�mero ha sido incorporado por:", - "diff": [ - "replace text[28:29] --> decoded_text[28:29] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"ú\"]" - }, - { - "text": "en ningún caso, podrá suponer la ampliación del número de", - "decoded_text": "en ning�n caso, podrá suponer la ampliación del n�mero de", - "diff": [ - "replace text[7:8] --> decoded_text[7:8] 'ú' --> '�'", - "replace text[49:50] --> decoded_text[49:50] 'ú' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"ú\"]" - }, - { - "text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por último, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", - "decoded_text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por �ltimo, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", - "diff": [ - "replace text[112:113] --> decoded_text[112:113] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002506265664160401, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Podemos emplear algún gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", - "decoded_text": "Podemos emplear alg�n gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0037593984962406013, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados músculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", - "decoded_text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados m�sculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", - "diff": [ - "replace text[126:127] --> decoded_text[126:127] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0026954177897574125, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las múltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", - "decoded_text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las m�ltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", - "diff": [ - "replace text[102:103] --> decoded_text[102:103] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0035460992907801418, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "S�per! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "replace text[1:2] --> decoded_text[1:2] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.013157894736842105, - "oov_charset": "[\"ú\"]" - }, - { - "text": "nstagram es la red social de mayor crecimiento en los últimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle algún provecho a nuestro ingenio.", - "decoded_text": "nstagram es la red social de mayor crecimiento en los �ltimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle alg�n provecho a nuestro ingenio.", - "diff": [ - "replace text[54:55] --> decoded_text[54:55] 'ú' --> '�'", - "replace text[319:320] --> decoded_text[319:320] 'ú' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.0057306590257879654, - "oov_charset": "[\"ú\"]" - }, - { - "text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en número de contactos y seguidores.", - "decoded_text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en n�mero de contactos y seguidores.", - "diff": [ - "replace text[353:354] --> decoded_text[353:354] 'ú' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0025974025974025974, - "oov_charset": "[\"ú\"]" - } +[ + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El período o períodos de su disfrute se fijará de com�n", + "diff": [ + "replace text[56:57] --> decoded_text[56:57] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este n�mero ha sido incorporado por:", + "diff": [ + "replace text[28:29] --> decoded_text[28:29] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "en ningún caso, podrá suponer la ampliación del número de", + "decoded_text": "en ning�n caso, podrá suponer la ampliación del n�mero de", + "diff": [ + "replace text[7:8] --> decoded_text[7:8] 'ú' --> '�'", + "replace text[49:50] --> decoded_text[49:50] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"ú\"]" + }, + { + "text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por último, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "decoded_text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por �ltimo, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "diff": [ + "replace text[112:113] --> decoded_text[112:113] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002506265664160401, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Podemos emplear algún gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "decoded_text": "Podemos emplear alg�n gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0037593984962406013, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados músculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "decoded_text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados m�sculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "diff": [ + "replace text[126:127] --> decoded_text[126:127] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0026954177897574125, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las múltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "decoded_text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las m�ltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "diff": [ + "replace text[102:103] --> decoded_text[102:103] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0035460992907801418, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "S�per! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013157894736842105, + "oov_charset": "[\"ú\"]" + }, + { + "text": "nstagram es la red social de mayor crecimiento en los últimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle algún provecho a nuestro ingenio.", + "decoded_text": "nstagram es la red social de mayor crecimiento en los �ltimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle alg�n provecho a nuestro ingenio.", + "diff": [ + "replace text[54:55] --> decoded_text[54:55] 'ú' --> '�'", + "replace text[319:320] --> decoded_text[319:320] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0057306590257879654, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en número de contactos y seguidores.", + "decoded_text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en n�mero de contactos y seguidores.", + "diff": [ + "replace text[353:354] --> decoded_text[353:354] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0025974025974025974, + "oov_charset": "[\"ú\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json index 12dec0d76472bba7afae43808fb3b43182111783..52edd1af85f4e9e372826ae84c5ecac65203d4fe 100644 --- a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", - "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, o� le prof a d� me garder une heure en plus pour m'expliquer des démonstrations)", - "diff": [ - "replace text[151:152] --> decoded_text[151:152] 'ù' --> '�'", - "replace text[164:165] --> decoded_text[164:165] 'û' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008695652173913044, - "oov_charset": "[\"ù\", \"û\"]" - }, - { - "text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas où s'arréter le job de la copine)", - "decoded_text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas o� s'arréter le job de la copine)", - "diff": [ - "replace text[167:168] --> decoded_text[167:168] 'ù' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005025125628140704, - "oov_charset": "[\"ù\"]" - }, - { - "text": "Le délai pour l’installation commence à partir du moment où vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", - "decoded_text": "Le délai pour l’installation commence à partir du moment o� vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", - "diff": [ - "replace text[58:59] --> decoded_text[58:59] 'ù' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005, - "oov_charset": "[\"ù\"]" - }, - { - "text": "-La chose que tu préfère faire au quotidien…le goûter de 4 h", - "decoded_text": "-La chose que tu préfère faire au quotidien…le go�ter de 4 h", - "diff": [ - "replace text[49:50] --> decoded_text[49:50] 'û' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"û\"]" - }, - { - "text": "-Une passion…le dessin, et les poneys bien sûr...", - "decoded_text": "-Une passion…le dessin, et les poneys bien s�r...", - "diff": [ - "replace text[44:45] --> decoded_text[44:45] 'û' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"û\"]" - }, - { - "text": "-Une personne qui te dégoûte…Ceux qui font du mal aux ô", - "decoded_text": "-Une personne qui te dégo�te…Ceux qui font du mal aux ô", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01818181818181818, - "oov_charset": "[\"û\"]" - }, - { - "text": "-Une personne qui te dégoûte… une sal*pe", - "decoded_text": "-Une personne qui te dégo�te… une sal*pe", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.025, - "oov_charset": "[\"û\"]" - }, - { - "text": "-Un jouet des 80’s… un petit poney bien sûr..", - "decoded_text": "-Un jouet des 80’s… un petit poney bien s�r..", - "diff": [ - "replace text[41:42] --> decoded_text[41:42] 'û' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"û\"]" - }, - { - "text": "- Une personne qui te dégoûte… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégoût... Je sais pas.", - "decoded_text": "- Une personne qui te dégo�te… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégo�t... Je sais pas.", - "diff": [ - "replace text[26:27] --> decoded_text[26:27] 'û' --> '�'", - "replace text[82:83] --> decoded_text[82:83] 'û' --> '�'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02, - "oov_charset": "[\"û\"]" - }, - { - "text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est sûr, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", - "decoded_text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est s�r, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", - "diff": [ - "replace text[63:64] --> decoded_text[63:64] 'û' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.007246376811594203, - "oov_charset": "[\"û\"]" - } +[ + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, o� le prof a d� me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[151:152] --> decoded_text[151:152] 'ù' --> '�'", + "replace text[164:165] --> decoded_text[164:165] 'û' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"ù\", \"û\"]" + }, + { + "text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas où s'arréter le job de la copine)", + "decoded_text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas o� s'arréter le job de la copine)", + "diff": [ + "replace text[167:168] --> decoded_text[167:168] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005025125628140704, + "oov_charset": "[\"ù\"]" + }, + { + "text": "Le délai pour l’installation commence à partir du moment où vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", + "decoded_text": "Le délai pour l’installation commence à partir du moment o� vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", + "diff": [ + "replace text[58:59] --> decoded_text[58:59] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005, + "oov_charset": "[\"ù\"]" + }, + { + "text": "-La chose que tu préfère faire au quotidien…le goûter de 4 h", + "decoded_text": "-La chose que tu préfère faire au quotidien…le go�ter de 4 h", + "diff": [ + "replace text[49:50] --> decoded_text[49:50] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une passion…le dessin, et les poneys bien sûr...", + "decoded_text": "-Une passion…le dessin, et les poneys bien s�r...", + "diff": [ + "replace text[44:45] --> decoded_text[44:45] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une personne qui te dégoûte…Ceux qui font du mal aux ô", + "decoded_text": "-Une personne qui te dégo�te…Ceux qui font du mal aux ô", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une personne qui te dégoûte… une sal*pe", + "decoded_text": "-Une personne qui te dégo�te… une sal*pe", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Un jouet des 80’s… un petit poney bien sûr..", + "decoded_text": "-Un jouet des 80’s… un petit poney bien s�r..", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"û\"]" + }, + { + "text": "- Une personne qui te dégoûte… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégoût... Je sais pas.", + "decoded_text": "- Une personne qui te dégo�te… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégo�t... Je sais pas.", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] 'û' --> '�'", + "replace text[82:83] --> decoded_text[82:83] 'û' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02, + "oov_charset": "[\"û\"]" + }, + { + "text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est sûr, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", + "decoded_text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est s�r, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", + "diff": [ + "replace text[63:64] --> decoded_text[63:64] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007246376811594203, + "oov_charset": "[\"û\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json index 4f89018a815662f49fc7911b864ea9f5dc765def..62638acf2ead16837b62442c457038d5d83c9d82 100644 --- a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json @@ -1,12 +1,12 @@ -[ - { - "text": "在这一瞬间,所有的乌山族人都lù出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", - "decoded_text": "在这一瞬间,所有的乌山族人都l�出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] 'ù' --> '�'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.018518518518518517, - "oov_charset": "[\"ù\"]" - } +[ + { + "text": "在这一瞬间,所有的乌山族人都lù出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", + "decoded_text": "在这一瞬间,所有的乌山族人都l�出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"ù\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json index 6c12c1388eb6aa809e6330a8e32781424dce53a1..2b710ca03e93e416bfc5d6fd56da62a990a44d97 100644 --- a/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json @@ -1,172 +1,172 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", - "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[20:20] --> decoded_text[22:23] '' --> ' '", - "insert text[53:53] --> decoded_text[56:57] '' --> ' '", - "insert text[66:66] --> decoded_text[70:71] '' --> ' '", - "insert text[79:79] --> decoded_text[84:85] '' --> ' '", - "insert text[140:140] --> decoded_text[146:147] '' --> ' '", - "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", - "insert text[181:181] --> decoded_text[188:189] '' --> ' '", - "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", - "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", - "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", - "insert text[381:381] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[42:42] --> decoded_text[44:45] '' --> ' '", - "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", - "insert text[67:67] --> decoded_text[70:71] '' --> ' '", - "insert text[68:68] --> decoded_text[72:73] '' --> ' '", - "insert text[76:76] --> decoded_text[81:82] '' --> ' '", - "insert text[77:77] --> decoded_text[83:84] '' --> ' '", - "insert text[109:109] --> decoded_text[116:117] '' --> ' '", - "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "insert text[18:18] --> decoded_text[18:19] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '", - "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", - "insert text[139:139] --> decoded_text[146:147] '' --> ' '", - "insert text[140:140] --> decoded_text[148:149] '' --> ' '", - "insert text[144:144] --> decoded_text[153:154] '' --> ' '", - "insert text[145:145] --> decoded_text[155:156] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json index a41364ca331616aa48c554033ea4b69ffc857be7..4f68fa613094070d67ebecbb3918e1dd30fad07a 100644 --- a/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json @@ -1,131 +1,131 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '", - "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.047619047619047616, - "oov_charset": "[\"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json index 446b5174c46edd19580adf245996c3d1a0e13369..3b4a0fdc9ebc0a6470298ceea0a958f81ad59c51 100644 --- a/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json @@ -1,1123 +1,1123 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[26:26] --> decoded_text[37:38] '' --> ' '", - "insert text[29:29] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[43:44] '' --> ' '", - "insert text[31:31] --> decoded_text[45:46] '' --> ' '", - "replace text[32:33] --> decoded_text[47:54] '・' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[55:56] '' --> ' '", - "insert text[35:35] --> decoded_text[57:58] '' --> ' '", - "insert text[36:36] --> decoded_text[59:60] '' --> ' '", - "insert text[37:37] --> decoded_text[61:62] '' --> ' '", - "insert text[41:41] --> decoded_text[66:67] '' --> ' '", - "insert text[42:42] --> decoded_text[68:69] '' --> ' '", - "insert text[43:43] --> decoded_text[70:71] '' --> ' '", - "insert text[44:44] --> decoded_text[72:73] '' --> ' '", - "insert text[45:45] --> decoded_text[74:75] '' --> ' '", - "insert text[46:46] --> decoded_text[76:77] '' --> ' '", - "replace text[47:48] --> decoded_text[78:81] '车' --> ' 车 '", - "insert text[49:49] --> decoded_text[82:83] '' --> ' '", - "insert text[50:50] --> decoded_text[84:85] '' --> ' '", - "insert text[51:51] --> decoded_text[86:87] '' --> ' '", - "insert text[52:52] --> decoded_text[88:89] '' --> ' '", - "insert text[53:53] --> decoded_text[90:91] '' --> ' '", - "insert text[54:54] --> decoded_text[92:93] '' --> ' '", - "insert text[55:55] --> decoded_text[94:95] '' --> ' '", - "insert text[56:56] --> decoded_text[96:97] '' --> ' '", - "replace text[57:58] --> decoded_text[98:101] ',' --> ' , '", - "insert text[59:59] --> decoded_text[102:103] '' --> ' '", - "insert text[60:60] --> decoded_text[104:105] '' --> ' '", - "insert text[61:61] --> decoded_text[106:107] '' --> ' '", - "insert text[62:62] --> decoded_text[108:109] '' --> ' '", - "insert text[63:63] --> decoded_text[110:111] '' --> ' '", - "insert text[64:64] --> decoded_text[112:113] '' --> ' '", - "insert text[65:65] --> decoded_text[114:115] '' --> ' '", - "insert text[66:66] --> decoded_text[116:117] '' --> ' '", - "insert text[67:67] --> decoded_text[118:119] '' --> ' '", - "insert text[68:68] --> decoded_text[120:121] '' --> ' '", - "insert text[69:69] --> decoded_text[122:123] '' --> ' '", - "insert text[70:70] --> decoded_text[124:125] '' --> ' '", - "insert text[71:71] --> decoded_text[126:127] '' --> ' '", - "insert text[72:72] --> decoded_text[128:129] '' --> ' '", - "insert text[73:73] --> decoded_text[130:131] '' --> ' '", - "insert text[74:74] --> decoded_text[132:133] '' --> ' '", - "insert text[75:75] --> decoded_text[134:135] '' --> ' '", - "insert text[76:76] --> decoded_text[136:137] '' --> ' '", - "insert text[77:77] --> decoded_text[138:139] '' --> ' '", - "insert text[78:78] --> decoded_text[140:141] '' --> ' '", - "insert text[79:79] --> decoded_text[142:143] '' --> ' '", - "replace text[80:81] --> decoded_text[144:147] '的' --> ' 的 '", - "insert text[82:82] --> decoded_text[148:149] '' --> ' '", - "insert text[83:83] --> decoded_text[150:151] '' --> ' '", - "insert text[84:84] --> decoded_text[152:153] '' --> ' '", - "insert text[85:85] --> decoded_text[154:155] '' --> ' '", - "insert text[86:86] --> decoded_text[156:157] '' --> ' '", - "insert text[87:87] --> decoded_text[158:159] '' --> ' '", - "insert text[88:88] --> decoded_text[160:161] '' --> ' '", - "insert text[89:89] --> decoded_text[162:163] '' --> ' '", - "insert text[90:90] --> decoded_text[164:165] '' --> ' '", - "replace text[91:92] --> decoded_text[166:169] '的' --> ' 的 '", - "insert text[93:93] --> decoded_text[170:171] '' --> ' '", - "insert text[94:94] --> decoded_text[172:173] '' --> ' '", - "replace text[95:96] --> decoded_text[174:177] ',' --> ' , '", - "insert text[97:97] --> decoded_text[178:179] '' --> ' '", - "insert text[98:98] --> decoded_text[180:181] '' --> ' '", - "insert text[99:99] --> decoded_text[182:183] '' --> ' '", - "insert text[100:100] --> decoded_text[184:185] '' --> ' '", - "replace text[101:102] --> decoded_text[186:189] '车' --> ' 车 '", - "insert text[103:103] --> decoded_text[190:191] '' --> ' '", - "insert text[104:104] --> decoded_text[192:193] '' --> ' '", - "insert text[105:105] --> decoded_text[194:195] '' --> ' '", - "insert text[106:106] --> decoded_text[196:197] '' --> ' '", - "insert text[107:107] --> decoded_text[198:199] '' --> ' '", - "insert text[108:108] --> decoded_text[200:201] '' --> ' '", - "replace text[109:110] --> decoded_text[202:205] '的' --> ' 的 '", - "insert text[111:111] --> decoded_text[206:207] '' --> ' '", - "insert text[112:112] --> decoded_text[208:209] '' --> ' '", - "replace text[113:114] --> decoded_text[210:213] ',' --> ' , '", - "insert text[115:115] --> decoded_text[214:215] '' --> ' '", - "insert text[116:116] --> decoded_text[216:217] '' --> ' '", - "insert text[117:117] --> decoded_text[218:219] '' --> ' '", - "insert text[118:118] --> decoded_text[220:221] '' --> ' '", - "insert text[119:119] --> decoded_text[222:223] '' --> ' '", - "insert text[120:120] --> decoded_text[224:225] '' --> ' '", - "insert text[121:121] --> decoded_text[226:227] '' --> ' '", - "insert text[122:122] --> decoded_text[228:229] '' --> ' '", - "insert text[123:123] --> decoded_text[230:231] '' --> ' '", - "insert text[124:124] --> decoded_text[232:233] '' --> ' '", - "insert text[125:125] --> decoded_text[234:235] '' --> ' '", - "insert text[126:126] --> decoded_text[236:237] '' --> ' '", - "insert text[127:127] --> decoded_text[238:239] '' --> ' '", - "insert text[128:128] --> decoded_text[240:241] '' --> ' '", - "insert text[129:129] --> decoded_text[242:243] '' --> ' '", - "replace text[130:131] --> decoded_text[244:247] '车' --> ' 车 '", - "replace text[132:133] --> decoded_text[248:250] 'S' --> 's '", - "insert text[134:134] --> decoded_text[251:252] '' --> ' '", - "insert text[135:135] --> decoded_text[253:254] '' --> ' '", - "replace text[136:137] --> decoded_text[255:258] ',' --> ' , '", - "insert text[138:138] --> decoded_text[259:260] '' --> ' '", - "insert text[139:139] --> decoded_text[261:262] '' --> ' '", - "insert text[140:140] --> decoded_text[263:264] '' --> ' '", - "replace text[141:142] --> decoded_text[265:268] '车' --> ' 车 '", - "insert text[143:143] --> decoded_text[269:270] '' --> ' '", - "insert text[144:144] --> decoded_text[271:272] '' --> ' '", - "replace text[145:146] --> decoded_text[273:276] '车' --> ' 车 '", - "insert text[147:147] --> decoded_text[277:278] '' --> ' '", - "replace text[148:149] --> decoded_text[279:282] ',' --> ' , '", - "insert text[150:150] --> decoded_text[283:284] '' --> ' '", - "insert text[151:151] --> decoded_text[285:286] '' --> ' '", - "insert text[152:152] --> decoded_text[287:288] '' --> ' '", - "replace text[153:154] --> decoded_text[289:292] '车' --> ' 车 '", - "insert text[155:155] --> decoded_text[293:294] '' --> ' '", - "insert text[156:156] --> decoded_text[295:296] '' --> ' '", - "insert text[157:157] --> decoded_text[297:298] '' --> ' '", - "insert text[158:158] --> decoded_text[299:300] '' --> ' '", - "insert text[159:159] --> decoded_text[301:302] '' --> ' '", - "insert text[163:163] --> decoded_text[306:307] '' --> ' '", - "insert text[164:164] --> decoded_text[308:309] '' --> ' '", - "insert text[165:165] --> decoded_text[310:311] '' --> ' '", - "insert text[166:166] --> decoded_text[312:313] '' --> ' '", - "insert text[167:167] --> decoded_text[314:315] '' --> ' '", - "replace text[168:169] --> decoded_text[316:319] ',' --> ' , '", - "insert text[170:170] --> decoded_text[320:321] '' --> ' '", - "replace text[171:173] --> decoded_text[322:327] '的车' --> ' 的 车 '", - "insert text[174:174] --> decoded_text[328:329] '' --> ' '", - "insert text[175:175] --> decoded_text[330:331] '' --> ' '", - "insert text[176:176] --> decoded_text[332:333] '' --> ' '", - "insert text[177:177] --> decoded_text[334:335] '' --> ' '", - "insert text[178:178] --> decoded_text[336:337] '' --> ' '", - "insert text[179:179] --> decoded_text[338:339] '' --> ' '", - "insert text[180:180] --> decoded_text[340:341] '' --> ' '", - "insert text[181:181] --> decoded_text[342:343] '' --> ' '", - "insert text[182:182] --> decoded_text[344:345] '' --> ' '", - "replace text[183:184] --> decoded_text[346:349] ',' --> ' , '", - "insert text[185:185] --> decoded_text[350:351] '' --> ' '", - "insert text[186:186] --> decoded_text[352:353] '' --> ' '", - "insert text[187:187] --> decoded_text[354:355] '' --> ' '", - "insert text[188:188] --> decoded_text[356:357] '' --> ' '", - "replace text[189:190] --> decoded_text[358:361] '的' --> ' 的 '", - "insert text[191:191] --> decoded_text[362:363] '' --> ' '", - "insert text[192:192] --> decoded_text[364:365] '' --> ' '", - "insert text[193:193] --> decoded_text[366:367] '' --> ' '", - "insert text[194:194] --> decoded_text[368:369] '' --> ' '", - "insert text[195:195] --> decoded_text[370:371] '' --> ' '", - "insert text[196:196] --> decoded_text[372:373] '' --> ' '", - "insert text[206:206] --> decoded_text[383:384] '' --> ' '", - "insert text[207:207] --> decoded_text[385:386] '' --> ' '", - "insert text[211:211] --> decoded_text[390:391] '' --> ' '", - "insert text[212:212] --> decoded_text[392:393] '' --> ' '", - "insert text[213:213] --> decoded_text[394:395] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.009345794392523364, - "oov_charset": "[\"・\", \"S\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 [UNK] 小 时 , 终 于 在 飞 机 起 飞 前 [UNK] 分 钟 , 登 上 返 程 的 航 班 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '", - "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "insert text[91:91] --> decoded_text[181:182] '' --> ' '", - "insert text[92:92] --> decoded_text[183:184] '' --> ' '", - "insert text[93:93] --> decoded_text[185:186] '' --> ' '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:101] --> decoded_text[197:206] '的3' --> ' 的 [UNK] '", - "insert text[102:102] --> decoded_text[207:208] '' --> ' '", - "replace text[103:104] --> decoded_text[209:212] ',' --> ' , '", - "insert text[105:105] --> decoded_text[213:214] '' --> ' '", - "insert text[106:106] --> decoded_text[215:216] '' --> ' '", - "insert text[107:107] --> decoded_text[217:218] '' --> ' '", - "insert text[108:108] --> decoded_text[219:220] '' --> ' '", - "insert text[109:109] --> decoded_text[221:222] '' --> ' '", - "insert text[110:110] --> decoded_text[223:224] '' --> ' '", - "insert text[111:111] --> decoded_text[225:226] '' --> ' '", - "replace text[112:113] --> decoded_text[227:234] '5' --> ' [UNK] '", - "insert text[114:114] --> decoded_text[235:236] '' --> ' '", - "replace text[115:116] --> decoded_text[237:240] ',' --> ' , '", - "insert text[117:117] --> decoded_text[241:242] '' --> ' '", - "insert text[118:118] --> decoded_text[243:244] '' --> ' '", - "insert text[119:119] --> decoded_text[245:246] '' --> ' '", - "replace text[120:121] --> decoded_text[247:250] '的' --> ' 的 '", - "insert text[122:122] --> decoded_text[251:252] '' --> ' '", - "insert text[123:123] --> decoded_text[253:254] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "insert text[50:50] --> decoded_text[96:97] '' --> ' '", - "insert text[51:51] --> decoded_text[98:99] '' --> ' '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "insert text[61:61] --> decoded_text[118:119] '' --> ' '", - "insert text[62:62] --> decoded_text[120:121] '' --> ' '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "insert text[70:70] --> decoded_text[136:137] '' --> ' '", - "insert text[71:71] --> decoded_text[138:139] '' --> ' '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "insert text[5:5] --> decoded_text[8:9] '' --> ' '", - "insert text[6:6] --> decoded_text[10:11] '' --> ' '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "insert text[9:9] --> decoded_text[16:17] '' --> ' '", - "insert text[10:10] --> decoded_text[18:19] '' --> ' '", - "insert text[11:11] --> decoded_text[20:21] '' --> ' '", - "insert text[12:12] --> decoded_text[22:23] '' --> ' '", - "insert text[13:13] --> decoded_text[24:25] '' --> ' '", - "insert text[14:14] --> decoded_text[26:27] '' --> ' '", - "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", - "insert text[17:17] --> decoded_text[32:33] '' --> ' '", - "insert text[18:18] --> decoded_text[34:35] '' --> ' '", - "insert text[19:19] --> decoded_text[36:37] '' --> ' '", - "insert text[20:20] --> decoded_text[38:39] '' --> ' '", - "insert text[21:21] --> decoded_text[40:41] '' --> ' '", - "insert text[22:22] --> decoded_text[42:43] '' --> ' '", - "insert text[23:23] --> decoded_text[44:45] '' --> ' '", - "insert text[24:24] --> decoded_text[46:47] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[32:32] --> decoded_text[61:62] '' --> ' '", - "insert text[33:33] --> decoded_text[63:64] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", - "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", - "insert text[72:72] --> decoded_text[132:133] '' --> ' '", - "insert text[73:73] --> decoded_text[134:135] '' --> ' '", - "insert text[74:74] --> decoded_text[136:137] '' --> ' '", - "insert text[75:75] --> decoded_text[138:139] '' --> ' '", - "insert text[76:76] --> decoded_text[140:141] '' --> ' '", - "insert text[77:77] --> decoded_text[142:143] '' --> ' '", - "insert text[78:78] --> decoded_text[144:145] '' --> ' '", - "insert text[79:79] --> decoded_text[146:147] '' --> ' '", - "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", - "insert text[82:82] --> decoded_text[152:153] '' --> ' '", - "insert text[83:83] --> decoded_text[154:155] '' --> ' '", - "insert text[84:84] --> decoded_text[156:157] '' --> ' '", - "insert text[85:85] --> decoded_text[158:159] '' --> ' '", - "insert text[86:86] --> decoded_text[160:161] '' --> ' '", - "insert text[87:87] --> decoded_text[162:163] '' --> ' '", - "insert text[88:88] --> decoded_text[164:165] '' --> ' '", - "insert text[89:89] --> decoded_text[166:167] '' --> ' '", - "insert text[90:90] --> decoded_text[168:169] '' --> ' '", - "insert text[91:91] --> decoded_text[170:171] '' --> ' '", - "insert text[92:92] --> decoded_text[172:173] '' --> ' '", - "insert text[93:93] --> decoded_text[174:175] '' --> ' '", - "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", - "insert text[96:96] --> decoded_text[180:181] '' --> ' '", - "insert text[97:97] --> decoded_text[182:183] '' --> ' '", - "insert text[98:98] --> decoded_text[184:185] '' --> ' '", - "insert text[99:99] --> decoded_text[186:187] '' --> ' '", - "insert text[100:100] --> decoded_text[188:189] '' --> ' '", - "insert text[101:101] --> decoded_text[190:191] '' --> ' '", - "insert text[102:102] --> decoded_text[192:193] '' --> ' '", - "insert text[103:103] --> decoded_text[194:195] '' --> ' '", - "insert text[104:104] --> decoded_text[196:197] '' --> ' '", - "insert text[105:105] --> decoded_text[198:199] '' --> ' '", - "insert text[106:106] --> decoded_text[200:201] '' --> ' '", - "insert text[107:107] --> decoded_text[202:203] '' --> ' '", - "insert text[108:108] --> decoded_text[204:205] '' --> ' '", - "insert text[109:109] --> decoded_text[206:207] '' --> ' '", - "insert text[110:110] --> decoded_text[208:209] '' --> ' '", - "insert text[111:111] --> decoded_text[210:211] '' --> ' '", - "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", - "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", - "insert text[124:124] --> decoded_text[225:226] '' --> ' '", - "insert text[125:125] --> decoded_text[227:228] '' --> ' '", - "insert text[126:126] --> decoded_text[229:230] '' --> ' '", - "insert text[127:127] --> decoded_text[231:232] '' --> ' '", - "insert text[128:128] --> decoded_text[233:234] '' --> ' '", - "insert text[129:129] --> decoded_text[235:236] '' --> ' '", - "insert text[130:130] --> decoded_text[237:238] '' --> ' '", - "insert text[131:131] --> decoded_text[239:240] '' --> ' '", - "insert text[132:132] --> decoded_text[241:242] '' --> ' '", - "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", - "insert text[135:135] --> decoded_text[247:248] '' --> ' '", - "insert text[136:136] --> decoded_text[249:250] '' --> ' '", - "insert text[137:137] --> decoded_text[251:252] '' --> ' '", - "insert text[138:138] --> decoded_text[253:254] '' --> ' '", - "insert text[139:139] --> decoded_text[255:256] '' --> ' '", - "insert text[140:140] --> decoded_text[257:258] '' --> ' '", - "insert text[141:141] --> decoded_text[259:260] '' --> ' '", - "insert text[142:142] --> decoded_text[261:262] '' --> ' '", - "insert text[143:143] --> decoded_text[263:264] '' --> ' '", - "insert text[144:144] --> decoded_text[265:266] '' --> ' '", - "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", - "insert text[147:147] --> decoded_text[271:272] '' --> ' '", - "insert text[148:148] --> decoded_text[273:274] '' --> ' '", - "insert text[149:149] --> decoded_text[275:276] '' --> ' '", - "insert text[150:150] --> decoded_text[277:278] '' --> ' '", - "insert text[151:151] --> decoded_text[279:280] '' --> ' '", - "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", - "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", - "insert text[162:162] --> decoded_text[292:293] '' --> ' '", - "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", - "insert text[165:165] --> decoded_text[298:299] '' --> ' '", - "insert text[166:166] --> decoded_text[300:301] '' --> ' '", - "insert text[167:167] --> decoded_text[302:303] '' --> ' '", - "insert text[168:168] --> decoded_text[304:305] '' --> ' '", - "insert text[169:169] --> decoded_text[306:307] '' --> ' '", - "insert text[170:170] --> decoded_text[308:309] '' --> ' '", - "insert text[171:171] --> decoded_text[310:311] '' --> ' '", - "insert text[172:172] --> decoded_text[312:313] '' --> ' '", - "insert text[173:173] --> decoded_text[314:315] '' --> ' '", - "insert text[174:174] --> decoded_text[316:317] '' --> ' '", - "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", - "insert text[185:185] --> decoded_text[329:330] '' --> ' '", - "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", - "insert text[188:188] --> decoded_text[335:336] '' --> ' '", - "insert text[189:189] --> decoded_text[337:338] '' --> ' '", - "insert text[190:190] --> decoded_text[339:340] '' --> ' '", - "insert text[191:191] --> decoded_text[341:342] '' --> ' '", - "insert text[192:192] --> decoded_text[343:344] '' --> ' '", - "insert text[193:193] --> decoded_text[345:346] '' --> ' '", - "insert text[194:194] --> decoded_text[347:348] '' --> ' '", - "insert text[195:195] --> decoded_text[349:350] '' --> ' '", - "insert text[196:196] --> decoded_text[351:352] '' --> ' '", - "insert text[197:197] --> decoded_text[353:354] '' --> ' '", - "insert text[198:198] --> decoded_text[355:356] '' --> ' '", - "insert text[199:199] --> decoded_text[357:358] '' --> ' '", - "insert text[200:200] --> decoded_text[359:360] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.03482587064676617, - "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[31:31] --> decoded_text[60:61] '' --> ' '", - "insert text[32:32] --> decoded_text[62:63] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "insert text[62:62] --> decoded_text[121:122] '' --> ' '", - "insert text[63:63] --> decoded_text[123:124] '' --> ' '", - "insert text[64:64] --> decoded_text[125:126] '' --> ' '", - "insert text[65:65] --> decoded_text[127:128] '' --> ' '", - "insert text[66:66] --> decoded_text[129:130] '' --> ' '", - "insert text[67:67] --> decoded_text[131:132] '' --> ' '", - "insert text[68:68] --> decoded_text[133:134] '' --> ' '", - "insert text[69:69] --> decoded_text[135:136] '' --> ' '", - "insert text[70:70] --> decoded_text[137:138] '' --> ' '", - "insert text[71:71] --> decoded_text[139:140] '' --> ' '", - "insert text[72:72] --> decoded_text[141:142] '' --> ' '", - "insert text[73:73] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '", - "insert text[78:78] --> decoded_text[152:153] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:3] --> decoded_text[3:10] '・' --> ' [UNK] '", - "insert text[4:4] --> decoded_text[11:12] '' --> ' '", - "insert text[5:5] --> decoded_text[13:14] '' --> ' '", - "insert text[6:6] --> decoded_text[15:16] '' --> ' '", - "insert text[7:7] --> decoded_text[17:18] '' --> ' '", - "insert text[11:11] --> decoded_text[22:23] '' --> ' '", - "insert text[12:12] --> decoded_text[24:25] '' --> ' '", - "insert text[13:13] --> decoded_text[26:27] '' --> ' '", - "insert text[14:14] --> decoded_text[28:29] '' --> ' '", - "insert text[15:15] --> decoded_text[30:31] '' --> ' '", - "replace text[16:17] --> decoded_text[32:35] '汽' --> ' 汽 '", - "replace text[18:20] --> decoded_text[36:41] '公司' --> ' 公 司 '", - "insert text[21:21] --> decoded_text[42:43] '' --> ' '", - "replace text[22:23] --> decoded_text[44:47] '总' --> ' 总 '", - "insert text[24:24] --> decoded_text[48:49] '' --> ' '", - "insert text[25:25] --> decoded_text[50:51] '' --> ' '", - "insert text[26:26] --> decoded_text[52:53] '' --> ' '", - "insert text[27:27] --> decoded_text[54:55] '' --> ' '", - "insert text[28:28] --> decoded_text[56:57] '' --> ' '", - "insert text[29:29] --> decoded_text[58:59] '' --> ' '", - "insert text[30:30] --> decoded_text[60:61] '' --> ' '", - "replace text[31:33] --> decoded_text[62:67] '公司' --> ' 公 司 '", - "insert text[34:34] --> decoded_text[68:69] '' --> ' '", - "insert text[35:35] --> decoded_text[70:71] '' --> ' '", - "insert text[36:36] --> decoded_text[72:73] '' --> ' '", - "insert text[37:37] --> decoded_text[74:75] '' --> ' '", - "insert text[38:38] --> decoded_text[76:77] '' --> ' '", - "insert text[39:39] --> decoded_text[78:79] '' --> ' '", - "insert text[40:40] --> decoded_text[80:81] '' --> ' '", - "insert text[41:41] --> decoded_text[82:83] '' --> ' '", - "insert text[42:42] --> decoded_text[84:85] '' --> ' '", - "insert text[43:43] --> decoded_text[86:87] '' --> ' '", - "insert text[44:44] --> decoded_text[88:89] '' --> ' '", - "insert text[45:45] --> decoded_text[90:91] '' --> ' '", - "insert text[46:46] --> decoded_text[92:93] '' --> ' '", - "insert text[47:47] --> decoded_text[94:95] '' --> ' '", - "insert text[48:48] --> decoded_text[96:97] '' --> ' '", - "insert text[49:49] --> decoded_text[98:99] '' --> ' '", - "replace text[50:51] --> decoded_text[100:103] '的' --> ' 的 '", - "insert text[52:52] --> decoded_text[104:105] '' --> ' '", - "insert text[53:53] --> decoded_text[106:107] '' --> ' '", - "insert text[54:54] --> decoded_text[108:109] '' --> ' '", - "insert text[55:55] --> decoded_text[110:111] '' --> ' '", - "insert text[56:56] --> decoded_text[112:113] '' --> ' '", - "insert text[57:57] --> decoded_text[114:115] '' --> ' '", - "insert text[58:58] --> decoded_text[116:117] '' --> ' '", - "insert text[59:59] --> decoded_text[118:119] '' --> ' '", - "insert text[60:60] --> decoded_text[120:121] '' --> ' '", - "replace text[61:62] --> decoded_text[122:125] '的' --> ' 的 '", - "insert text[63:63] --> decoded_text[126:127] '' --> ' '", - "insert text[64:64] --> decoded_text[128:129] '' --> ' '", - "insert text[65:65] --> decoded_text[130:131] '' --> ' '", - "insert text[66:66] --> decoded_text[132:133] '' --> ' '", - "insert text[67:67] --> decoded_text[134:135] '' --> ' '", - "insert text[68:68] --> decoded_text[136:137] '' --> ' '", - "insert text[69:69] --> decoded_text[138:139] '' --> ' '", - "replace text[70:71] --> decoded_text[140:143] '汽' --> ' 汽 '", - "insert text[72:72] --> decoded_text[144:145] '' --> ' '", - "insert text[73:73] --> decoded_text[146:147] '' --> ' '", - "insert text[74:74] --> decoded_text[148:149] '' --> ' '", - "insert text[75:75] --> decoded_text[150:151] '' --> ' '", - "insert text[76:76] --> decoded_text[152:153] '' --> ' '", - "replace text[77:80] --> decoded_text[154:161] '公司的' --> ' 公 司 的 '", - "replace text[81:82] --> decoded_text[162:165] '总' --> ' 总 '", - "insert text[83:83] --> decoded_text[166:167] '' --> ' '", - "insert text[84:84] --> decoded_text[168:169] '' --> ' '", - "replace text[85:86] --> decoded_text[170:173] '汽' --> ' 汽 '", - "insert text[87:87] --> decoded_text[174:175] '' --> ' '", - "insert text[88:88] --> decoded_text[176:177] '' --> ' '", - "insert text[89:89] --> decoded_text[178:179] '' --> ' '", - "replace text[90:93] --> decoded_text[180:187] '公司的' --> ' 公 司 的 '", - "replace text[94:95] --> decoded_text[188:191] '总' --> ' 总 '", - "insert text[96:96] --> decoded_text[192:193] '' --> ' '", - "insert text[97:97] --> decoded_text[194:195] '' --> ' '", - "insert text[98:98] --> decoded_text[196:197] '' --> ' '", - "insert text[99:99] --> decoded_text[198:199] '' --> ' '", - "replace text[100:101] --> decoded_text[200:203] '汽' --> ' 汽 '", - "insert text[102:102] --> decoded_text[204:205] '' --> ' '", - "insert text[103:103] --> decoded_text[206:207] '' --> ' '", - "replace text[104:108] --> decoded_text[208:217] '公司的总' --> ' 公 司 的 总 '", - "insert text[109:109] --> decoded_text[218:219] '' --> ' '", - "insert text[110:110] --> decoded_text[220:221] '' --> ' '", - "insert text[111:111] --> decoded_text[222:223] '' --> ' '", - "insert text[112:112] --> decoded_text[224:225] '' --> ' '", - "insert text[113:113] --> decoded_text[226:227] '' --> ' '", - "insert text[114:114] --> decoded_text[228:229] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.008695652173913044, - "oov_charset": "[\"・\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : “ 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? ” 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", - "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", - "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "replace text[73:74] --> decoded_text[145:148] ',' --> ' , '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "replace text[76:77] --> decoded_text[151:154] '你' --> ' 你 '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "insert text[83:83] --> decoded_text[165:166] '' --> ' '", - "replace text[84:85] --> decoded_text[167:170] ',' --> ' , '", - "replace text[86:87] --> decoded_text[171:174] '你' --> ' 你 '", - "insert text[88:88] --> decoded_text[175:176] '' --> ' '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "replace text[91:93] --> decoded_text[181:186] ',你' --> ' , 你 '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:101] --> decoded_text[197:202] ',你' --> ' , 你 '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "insert text[103:103] --> decoded_text[205:206] '' --> ' '", - "insert text[104:104] --> decoded_text[207:208] '' --> ' '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "replace text[107:110] --> decoded_text[213:220] '是不是' --> ' 是 不 是 '", - "insert text[111:111] --> decoded_text[221:222] '' --> ' '", - "insert text[112:112] --> decoded_text[223:224] '' --> ' '", - "replace text[113:115] --> decoded_text[225:230] '也是' --> ' 也 是 '", - "insert text[116:116] --> decoded_text[231:232] '' --> ' '", - "replace text[117:118] --> decoded_text[233:236] '。' --> ' 。 '", - "insert text[119:119] --> decoded_text[237:238] '' --> ' '", - "insert text[120:120] --> decoded_text[239:240] '' --> ' '", - "replace text[121:122] --> decoded_text[241:244] '你' --> ' 你 '", - "insert text[123:123] --> decoded_text[245:246] '' --> ' '", - "insert text[124:124] --> decoded_text[247:248] '' --> ' '", - "insert text[125:125] --> decoded_text[249:250] '' --> ' '", - "replace text[126:131] --> decoded_text[251:262] '他,他也不' --> ' 他 , 他 也 不 '", - "insert text[132:132] --> decoded_text[263:264] '' --> ' '", - "insert text[133:133] --> decoded_text[265:266] '' --> ' '", - "insert text[134:134] --> decoded_text[267:268] '' --> ' '", - "insert text[135:135] --> decoded_text[269:270] '' --> ' '", - "replace text[136:137] --> decoded_text[271:273] '。' --> ' 。'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[56:56] --> decoded_text[107:108] '' --> ' '", - "insert text[57:57] --> decoded_text[109:110] '' --> ' '", - "insert text[58:58] --> decoded_text[111:112] '' --> ' '", - "insert text[59:59] --> decoded_text[113:114] '' --> ' '", - "insert text[60:60] --> decoded_text[115:116] '' --> ' '", - "insert text[61:61] --> decoded_text[117:118] '' --> ' '", - "insert text[62:62] --> decoded_text[119:120] '' --> ' '", - "insert text[63:63] --> decoded_text[121:122] '' --> ' '", - "insert text[64:64] --> decoded_text[123:124] '' --> ' '", - "insert text[65:65] --> decoded_text[125:126] '' --> ' '", - "insert text[66:66] --> decoded_text[127:128] '' --> ' '", - "insert text[67:67] --> decoded_text[129:130] '' --> ' '", - "insert text[68:68] --> decoded_text[131:132] '' --> ' '", - "insert text[69:69] --> decoded_text[133:134] '' --> ' '", - "insert text[70:70] --> decoded_text[135:136] '' --> ' '", - "insert text[71:71] --> decoded_text[137:138] '' --> ' '", - "insert text[72:72] --> decoded_text[139:140] '' --> ' '", - "insert text[73:73] --> decoded_text[141:142] '' --> ' '", - "insert text[74:74] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[145:146] '' --> ' '", - "insert text[76:76] --> decoded_text[147:148] '' --> ' '", - "insert text[77:77] --> decoded_text[149:150] '' --> ' '", - "insert text[78:78] --> decoded_text[151:152] '' --> ' '", - "insert text[79:79] --> decoded_text[153:154] '' --> ' '", - "insert text[80:80] --> decoded_text[155:156] '' --> ' '", - "insert text[81:81] --> decoded_text[157:158] '' --> ' '", - "insert text[82:82] --> decoded_text[159:160] '' --> ' '", - "insert text[83:83] --> decoded_text[161:162] '' --> ' '", - "insert text[84:84] --> decoded_text[163:164] '' --> ' '", - "insert text[85:85] --> decoded_text[165:166] '' --> ' '", - "insert text[86:86] --> decoded_text[167:168] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 ‘ 血 刀 老 祖 ’ , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 ” 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 “ 拾 金 而 昧 ” , 还 “ 昧 ” 得 理 直 气 壮 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "replace text[25:26] --> decoded_text[49:52] ',' --> ' , '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "replace text[28:29] --> decoded_text[55:58] '的' --> ' 的 '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "replace text[38:40] --> decoded_text[75:80] '的,' --> ' 的 , '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "replace text[42:43] --> decoded_text[83:86] '这' --> ' 这 '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "replace text[53:54] --> decoded_text[105:108] ',' --> ' , '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "replace text[58:59] --> decoded_text[115:118] ',' --> ' , '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "replace text[62:64] --> decoded_text[123:128] '的这' --> ' 的 这 '", - "replace text[65:66] --> decoded_text[129:132] '的' --> ' 的 '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "replace text[69:70] --> decoded_text[137:140] '这' --> ' 这 '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "insert text[83:83] --> decoded_text[165:166] '' --> ' '", - "insert text[84:84] --> decoded_text[167:168] '' --> ' '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '", - "insert text[87:87] --> decoded_text[173:174] '' --> ' '", - "insert text[88:88] --> decoded_text[175:176] '' --> ' '", - "replace text[89:90] --> decoded_text[177:180] '这' --> ' 这 '", - "insert text[91:91] --> decoded_text[181:182] '' --> ' '", - "insert text[92:92] --> decoded_text[183:184] '' --> ' '", - "insert text[93:93] --> decoded_text[185:186] '' --> ' '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "replace text[95:96] --> decoded_text[189:192] ',' --> ' , '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "insert text[99:99] --> decoded_text[197:198] '' --> ' '", - "insert text[100:100] --> decoded_text[199:200] '' --> ' '", - "insert text[101:101] --> decoded_text[201:202] '' --> ' '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "insert text[103:103] --> decoded_text[205:206] '' --> ' '", - "insert text[104:104] --> decoded_text[207:208] '' --> ' '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "replace text[107:108] --> decoded_text[213:216] ',' --> ' , '", - "insert text[109:109] --> decoded_text[217:218] '' --> ' '", - "replace text[110:112] --> decoded_text[219:224] '的的' --> ' 的 的 '", - "insert text[113:113] --> decoded_text[225:226] '' --> ' '", - "insert text[114:114] --> decoded_text[227:228] '' --> ' '", - "insert text[115:115] --> decoded_text[229:230] '' --> ' '", - "insert text[116:116] --> decoded_text[231:232] '' --> ' '", - "insert text[117:117] --> decoded_text[233:234] '' --> ' '", - "insert text[118:118] --> decoded_text[235:236] '' --> ' '", - "insert text[119:119] --> decoded_text[237:238] '' --> ' '", - "insert text[120:120] --> decoded_text[239:240] '' --> ' '", - "replace text[121:122] --> decoded_text[241:244] ',' --> ' , '", - "insert text[123:123] --> decoded_text[245:246] '' --> ' '", - "insert text[124:124] --> decoded_text[247:248] '' --> ' '", - "insert text[125:125] --> decoded_text[249:250] '' --> ' '", - "insert text[126:126] --> decoded_text[251:252] '' --> ' '", - "insert text[127:127] --> decoded_text[253:254] '' --> ' '", - "insert text[128:128] --> decoded_text[255:256] '' --> ' '", - "insert text[129:129] --> decoded_text[257:258] '' --> ' '", - "insert text[130:130] --> decoded_text[259:260] '' --> ' '", - "insert text[131:131] --> decoded_text[261:262] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "replace text[32:33] --> decoded_text[47:54] '・' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[55:56] '' --> ' '", + "insert text[35:35] --> decoded_text[57:58] '' --> ' '", + "insert text[36:36] --> decoded_text[59:60] '' --> ' '", + "insert text[37:37] --> decoded_text[61:62] '' --> ' '", + "insert text[41:41] --> decoded_text[66:67] '' --> ' '", + "insert text[42:42] --> decoded_text[68:69] '' --> ' '", + "insert text[43:43] --> decoded_text[70:71] '' --> ' '", + "insert text[44:44] --> decoded_text[72:73] '' --> ' '", + "insert text[45:45] --> decoded_text[74:75] '' --> ' '", + "insert text[46:46] --> decoded_text[76:77] '' --> ' '", + "replace text[47:48] --> decoded_text[78:81] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[82:83] '' --> ' '", + "insert text[50:50] --> decoded_text[84:85] '' --> ' '", + "insert text[51:51] --> decoded_text[86:87] '' --> ' '", + "insert text[52:52] --> decoded_text[88:89] '' --> ' '", + "insert text[53:53] --> decoded_text[90:91] '' --> ' '", + "insert text[54:54] --> decoded_text[92:93] '' --> ' '", + "insert text[55:55] --> decoded_text[94:95] '' --> ' '", + "insert text[56:56] --> decoded_text[96:97] '' --> ' '", + "replace text[57:58] --> decoded_text[98:101] ',' --> ' , '", + "insert text[59:59] --> decoded_text[102:103] '' --> ' '", + "insert text[60:60] --> decoded_text[104:105] '' --> ' '", + "insert text[61:61] --> decoded_text[106:107] '' --> ' '", + "insert text[62:62] --> decoded_text[108:109] '' --> ' '", + "insert text[63:63] --> decoded_text[110:111] '' --> ' '", + "insert text[64:64] --> decoded_text[112:113] '' --> ' '", + "insert text[65:65] --> decoded_text[114:115] '' --> ' '", + "insert text[66:66] --> decoded_text[116:117] '' --> ' '", + "insert text[67:67] --> decoded_text[118:119] '' --> ' '", + "insert text[68:68] --> decoded_text[120:121] '' --> ' '", + "insert text[69:69] --> decoded_text[122:123] '' --> ' '", + "insert text[70:70] --> decoded_text[124:125] '' --> ' '", + "insert text[71:71] --> decoded_text[126:127] '' --> ' '", + "insert text[72:72] --> decoded_text[128:129] '' --> ' '", + "insert text[73:73] --> decoded_text[130:131] '' --> ' '", + "insert text[74:74] --> decoded_text[132:133] '' --> ' '", + "insert text[75:75] --> decoded_text[134:135] '' --> ' '", + "insert text[76:76] --> decoded_text[136:137] '' --> ' '", + "insert text[77:77] --> decoded_text[138:139] '' --> ' '", + "insert text[78:78] --> decoded_text[140:141] '' --> ' '", + "insert text[79:79] --> decoded_text[142:143] '' --> ' '", + "replace text[80:81] --> decoded_text[144:147] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[148:149] '' --> ' '", + "insert text[83:83] --> decoded_text[150:151] '' --> ' '", + "insert text[84:84] --> decoded_text[152:153] '' --> ' '", + "insert text[85:85] --> decoded_text[154:155] '' --> ' '", + "insert text[86:86] --> decoded_text[156:157] '' --> ' '", + "insert text[87:87] --> decoded_text[158:159] '' --> ' '", + "insert text[88:88] --> decoded_text[160:161] '' --> ' '", + "insert text[89:89] --> decoded_text[162:163] '' --> ' '", + "insert text[90:90] --> decoded_text[164:165] '' --> ' '", + "replace text[91:92] --> decoded_text[166:169] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[170:171] '' --> ' '", + "insert text[94:94] --> decoded_text[172:173] '' --> ' '", + "replace text[95:96] --> decoded_text[174:177] ',' --> ' , '", + "insert text[97:97] --> decoded_text[178:179] '' --> ' '", + "insert text[98:98] --> decoded_text[180:181] '' --> ' '", + "insert text[99:99] --> decoded_text[182:183] '' --> ' '", + "insert text[100:100] --> decoded_text[184:185] '' --> ' '", + "replace text[101:102] --> decoded_text[186:189] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[190:191] '' --> ' '", + "insert text[104:104] --> decoded_text[192:193] '' --> ' '", + "insert text[105:105] --> decoded_text[194:195] '' --> ' '", + "insert text[106:106] --> decoded_text[196:197] '' --> ' '", + "insert text[107:107] --> decoded_text[198:199] '' --> ' '", + "insert text[108:108] --> decoded_text[200:201] '' --> ' '", + "replace text[109:110] --> decoded_text[202:205] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[206:207] '' --> ' '", + "insert text[112:112] --> decoded_text[208:209] '' --> ' '", + "replace text[113:114] --> decoded_text[210:213] ',' --> ' , '", + "insert text[115:115] --> decoded_text[214:215] '' --> ' '", + "insert text[116:116] --> decoded_text[216:217] '' --> ' '", + "insert text[117:117] --> decoded_text[218:219] '' --> ' '", + "insert text[118:118] --> decoded_text[220:221] '' --> ' '", + "insert text[119:119] --> decoded_text[222:223] '' --> ' '", + "insert text[120:120] --> decoded_text[224:225] '' --> ' '", + "insert text[121:121] --> decoded_text[226:227] '' --> ' '", + "insert text[122:122] --> decoded_text[228:229] '' --> ' '", + "insert text[123:123] --> decoded_text[230:231] '' --> ' '", + "insert text[124:124] --> decoded_text[232:233] '' --> ' '", + "insert text[125:125] --> decoded_text[234:235] '' --> ' '", + "insert text[126:126] --> decoded_text[236:237] '' --> ' '", + "insert text[127:127] --> decoded_text[238:239] '' --> ' '", + "insert text[128:128] --> decoded_text[240:241] '' --> ' '", + "insert text[129:129] --> decoded_text[242:243] '' --> ' '", + "replace text[130:131] --> decoded_text[244:247] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[248:250] 'S' --> 's '", + "insert text[134:134] --> decoded_text[251:252] '' --> ' '", + "insert text[135:135] --> decoded_text[253:254] '' --> ' '", + "replace text[136:137] --> decoded_text[255:258] ',' --> ' , '", + "insert text[138:138] --> decoded_text[259:260] '' --> ' '", + "insert text[139:139] --> decoded_text[261:262] '' --> ' '", + "insert text[140:140] --> decoded_text[263:264] '' --> ' '", + "replace text[141:142] --> decoded_text[265:268] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[269:270] '' --> ' '", + "insert text[144:144] --> decoded_text[271:272] '' --> ' '", + "replace text[145:146] --> decoded_text[273:276] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[277:278] '' --> ' '", + "replace text[148:149] --> decoded_text[279:282] ',' --> ' , '", + "insert text[150:150] --> decoded_text[283:284] '' --> ' '", + "insert text[151:151] --> decoded_text[285:286] '' --> ' '", + "insert text[152:152] --> decoded_text[287:288] '' --> ' '", + "replace text[153:154] --> decoded_text[289:292] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[293:294] '' --> ' '", + "insert text[156:156] --> decoded_text[295:296] '' --> ' '", + "insert text[157:157] --> decoded_text[297:298] '' --> ' '", + "insert text[158:158] --> decoded_text[299:300] '' --> ' '", + "insert text[159:159] --> decoded_text[301:302] '' --> ' '", + "insert text[163:163] --> decoded_text[306:307] '' --> ' '", + "insert text[164:164] --> decoded_text[308:309] '' --> ' '", + "insert text[165:165] --> decoded_text[310:311] '' --> ' '", + "insert text[166:166] --> decoded_text[312:313] '' --> ' '", + "insert text[167:167] --> decoded_text[314:315] '' --> ' '", + "replace text[168:169] --> decoded_text[316:319] ',' --> ' , '", + "insert text[170:170] --> decoded_text[320:321] '' --> ' '", + "replace text[171:173] --> decoded_text[322:327] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[328:329] '' --> ' '", + "insert text[175:175] --> decoded_text[330:331] '' --> ' '", + "insert text[176:176] --> decoded_text[332:333] '' --> ' '", + "insert text[177:177] --> decoded_text[334:335] '' --> ' '", + "insert text[178:178] --> decoded_text[336:337] '' --> ' '", + "insert text[179:179] --> decoded_text[338:339] '' --> ' '", + "insert text[180:180] --> decoded_text[340:341] '' --> ' '", + "insert text[181:181] --> decoded_text[342:343] '' --> ' '", + "insert text[182:182] --> decoded_text[344:345] '' --> ' '", + "replace text[183:184] --> decoded_text[346:349] ',' --> ' , '", + "insert text[185:185] --> decoded_text[350:351] '' --> ' '", + "insert text[186:186] --> decoded_text[352:353] '' --> ' '", + "insert text[187:187] --> decoded_text[354:355] '' --> ' '", + "insert text[188:188] --> decoded_text[356:357] '' --> ' '", + "replace text[189:190] --> decoded_text[358:361] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[362:363] '' --> ' '", + "insert text[192:192] --> decoded_text[364:365] '' --> ' '", + "insert text[193:193] --> decoded_text[366:367] '' --> ' '", + "insert text[194:194] --> decoded_text[368:369] '' --> ' '", + "insert text[195:195] --> decoded_text[370:371] '' --> ' '", + "insert text[196:196] --> decoded_text[372:373] '' --> ' '", + "insert text[206:206] --> decoded_text[383:384] '' --> ' '", + "insert text[207:207] --> decoded_text[385:386] '' --> ' '", + "insert text[211:211] --> decoded_text[390:391] '' --> ' '", + "insert text[212:212] --> decoded_text[392:393] '' --> ' '", + "insert text[213:213] --> decoded_text[394:395] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"・\", \"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 [UNK] 小 时 , 终 于 在 飞 机 起 飞 前 [UNK] 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:101] --> decoded_text[197:206] '的3' --> ' 的 [UNK] '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "replace text[103:104] --> decoded_text[209:212] ',' --> ' , '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "insert text[107:107] --> decoded_text[217:218] '' --> ' '", + "insert text[108:108] --> decoded_text[219:220] '' --> ' '", + "insert text[109:109] --> decoded_text[221:222] '' --> ' '", + "insert text[110:110] --> decoded_text[223:224] '' --> ' '", + "insert text[111:111] --> decoded_text[225:226] '' --> ' '", + "replace text[112:113] --> decoded_text[227:234] '5' --> ' [UNK] '", + "insert text[114:114] --> decoded_text[235:236] '' --> ' '", + "replace text[115:116] --> decoded_text[237:240] ',' --> ' , '", + "insert text[117:117] --> decoded_text[241:242] '' --> ' '", + "insert text[118:118] --> decoded_text[243:244] '' --> ' '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "replace text[120:121] --> decoded_text[247:250] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[251:252] '' --> ' '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:3] --> decoded_text[3:10] '・' --> ' [UNK] '", + "insert text[4:4] --> decoded_text[11:12] '' --> ' '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[11:11] --> decoded_text[22:23] '' --> ' '", + "insert text[12:12] --> decoded_text[24:25] '' --> ' '", + "insert text[13:13] --> decoded_text[26:27] '' --> ' '", + "insert text[14:14] --> decoded_text[28:29] '' --> ' '", + "insert text[15:15] --> decoded_text[30:31] '' --> ' '", + "replace text[16:17] --> decoded_text[32:35] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[36:41] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[42:43] '' --> ' '", + "replace text[22:23] --> decoded_text[44:47] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[48:49] '' --> ' '", + "insert text[25:25] --> decoded_text[50:51] '' --> ' '", + "insert text[26:26] --> decoded_text[52:53] '' --> ' '", + "insert text[27:27] --> decoded_text[54:55] '' --> ' '", + "insert text[28:28] --> decoded_text[56:57] '' --> ' '", + "insert text[29:29] --> decoded_text[58:59] '' --> ' '", + "insert text[30:30] --> decoded_text[60:61] '' --> ' '", + "replace text[31:33] --> decoded_text[62:67] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[68:69] '' --> ' '", + "insert text[35:35] --> decoded_text[70:71] '' --> ' '", + "insert text[36:36] --> decoded_text[72:73] '' --> ' '", + "insert text[37:37] --> decoded_text[74:75] '' --> ' '", + "insert text[38:38] --> decoded_text[76:77] '' --> ' '", + "insert text[39:39] --> decoded_text[78:79] '' --> ' '", + "insert text[40:40] --> decoded_text[80:81] '' --> ' '", + "insert text[41:41] --> decoded_text[82:83] '' --> ' '", + "insert text[42:42] --> decoded_text[84:85] '' --> ' '", + "insert text[43:43] --> decoded_text[86:87] '' --> ' '", + "insert text[44:44] --> decoded_text[88:89] '' --> ' '", + "insert text[45:45] --> decoded_text[90:91] '' --> ' '", + "insert text[46:46] --> decoded_text[92:93] '' --> ' '", + "insert text[47:47] --> decoded_text[94:95] '' --> ' '", + "insert text[48:48] --> decoded_text[96:97] '' --> ' '", + "insert text[49:49] --> decoded_text[98:99] '' --> ' '", + "replace text[50:51] --> decoded_text[100:103] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[104:105] '' --> ' '", + "insert text[53:53] --> decoded_text[106:107] '' --> ' '", + "insert text[54:54] --> decoded_text[108:109] '' --> ' '", + "insert text[55:55] --> decoded_text[110:111] '' --> ' '", + "insert text[56:56] --> decoded_text[112:113] '' --> ' '", + "insert text[57:57] --> decoded_text[114:115] '' --> ' '", + "insert text[58:58] --> decoded_text[116:117] '' --> ' '", + "insert text[59:59] --> decoded_text[118:119] '' --> ' '", + "insert text[60:60] --> decoded_text[120:121] '' --> ' '", + "replace text[61:62] --> decoded_text[122:125] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[126:127] '' --> ' '", + "insert text[64:64] --> decoded_text[128:129] '' --> ' '", + "insert text[65:65] --> decoded_text[130:131] '' --> ' '", + "insert text[66:66] --> decoded_text[132:133] '' --> ' '", + "insert text[67:67] --> decoded_text[134:135] '' --> ' '", + "insert text[68:68] --> decoded_text[136:137] '' --> ' '", + "insert text[69:69] --> decoded_text[138:139] '' --> ' '", + "replace text[70:71] --> decoded_text[140:143] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[144:145] '' --> ' '", + "insert text[73:73] --> decoded_text[146:147] '' --> ' '", + "insert text[74:74] --> decoded_text[148:149] '' --> ' '", + "insert text[75:75] --> decoded_text[150:151] '' --> ' '", + "insert text[76:76] --> decoded_text[152:153] '' --> ' '", + "replace text[77:80] --> decoded_text[154:161] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[162:165] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[166:167] '' --> ' '", + "insert text[84:84] --> decoded_text[168:169] '' --> ' '", + "replace text[85:86] --> decoded_text[170:173] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[174:175] '' --> ' '", + "insert text[88:88] --> decoded_text[176:177] '' --> ' '", + "insert text[89:89] --> decoded_text[178:179] '' --> ' '", + "replace text[90:93] --> decoded_text[180:187] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[188:191] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[192:193] '' --> ' '", + "insert text[97:97] --> decoded_text[194:195] '' --> ' '", + "insert text[98:98] --> decoded_text[196:197] '' --> ' '", + "insert text[99:99] --> decoded_text[198:199] '' --> ' '", + "replace text[100:101] --> decoded_text[200:203] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[204:205] '' --> ' '", + "insert text[103:103] --> decoded_text[206:207] '' --> ' '", + "replace text[104:108] --> decoded_text[208:217] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[218:219] '' --> ' '", + "insert text[110:110] --> decoded_text[220:221] '' --> ' '", + "insert text[111:111] --> decoded_text[222:223] '' --> ' '", + "insert text[112:112] --> decoded_text[224:225] '' --> ' '", + "insert text[113:113] --> decoded_text[226:227] '' --> ' '", + "insert text[114:114] --> decoded_text[228:229] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"・\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : “ 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? ” 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "replace text[73:74] --> decoded_text[145:148] ',' --> ' , '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "replace text[76:77] --> decoded_text[151:154] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "replace text[84:85] --> decoded_text[167:170] ',' --> ' , '", + "replace text[86:87] --> decoded_text[171:174] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[175:176] '' --> ' '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "replace text[91:93] --> decoded_text[181:186] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:101] --> decoded_text[197:202] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "insert text[103:103] --> decoded_text[205:206] '' --> ' '", + "insert text[104:104] --> decoded_text[207:208] '' --> ' '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "replace text[107:110] --> decoded_text[213:220] '是不是' --> ' 是 不 是 '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "replace text[113:115] --> decoded_text[225:230] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[231:232] '' --> ' '", + "replace text[117:118] --> decoded_text[233:236] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "insert text[120:120] --> decoded_text[239:240] '' --> ' '", + "replace text[121:122] --> decoded_text[241:244] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '", + "insert text[124:124] --> decoded_text[247:248] '' --> ' '", + "insert text[125:125] --> decoded_text[249:250] '' --> ' '", + "replace text[126:131] --> decoded_text[251:262] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[263:264] '' --> ' '", + "insert text[133:133] --> decoded_text[265:266] '' --> ' '", + "insert text[134:134] --> decoded_text[267:268] '' --> ' '", + "insert text[135:135] --> decoded_text[269:270] '' --> ' '", + "replace text[136:137] --> decoded_text[271:273] '。' --> ' 。'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 ‘ 血 刀 老 祖 ’ , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 ” 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 “ 拾 金 而 昧 ” , 还 “ 昧 ” 得 理 直 气 壮 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "replace text[25:26] --> decoded_text[49:52] ',' --> ' , '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "replace text[28:29] --> decoded_text[55:58] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "replace text[38:40] --> decoded_text[75:80] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "replace text[42:43] --> decoded_text[83:86] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "replace text[53:54] --> decoded_text[105:108] ',' --> ' , '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "replace text[58:59] --> decoded_text[115:118] ',' --> ' , '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "replace text[62:64] --> decoded_text[123:128] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[129:132] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "replace text[69:70] --> decoded_text[137:140] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "insert text[84:84] --> decoded_text[167:168] '' --> ' '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "insert text[87:87] --> decoded_text[173:174] '' --> ' '", + "insert text[88:88] --> decoded_text[175:176] '' --> ' '", + "replace text[89:90] --> decoded_text[177:180] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "replace text[95:96] --> decoded_text[189:192] ',' --> ' , '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "insert text[99:99] --> decoded_text[197:198] '' --> ' '", + "insert text[100:100] --> decoded_text[199:200] '' --> ' '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "insert text[103:103] --> decoded_text[205:206] '' --> ' '", + "insert text[104:104] --> decoded_text[207:208] '' --> ' '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "replace text[107:108] --> decoded_text[213:216] ',' --> ' , '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "replace text[110:112] --> decoded_text[219:224] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "insert text[115:115] --> decoded_text[229:230] '' --> ' '", + "insert text[116:116] --> decoded_text[231:232] '' --> ' '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "insert text[120:120] --> decoded_text[239:240] '' --> ' '", + "replace text[121:122] --> decoded_text[241:244] ',' --> ' , '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '", + "insert text[124:124] --> decoded_text[247:248] '' --> ' '", + "insert text[125:125] --> decoded_text[249:250] '' --> ' '", + "insert text[126:126] --> decoded_text[251:252] '' --> ' '", + "insert text[127:127] --> decoded_text[253:254] '' --> ' '", + "insert text[128:128] --> decoded_text[255:256] '' --> ' '", + "insert text[129:129] --> decoded_text[257:258] '' --> ' '", + "insert text[130:130] --> decoded_text[259:260] '' --> ' '", + "insert text[131:131] --> decoded_text[261:262] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json index 0d00014e944c8dab737f065dd5ae27d88d1689cd..38d92e87e00a3bf234cd0ef11cb678aa18c88786 100644 --- a/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json @@ -1,112 +1,112 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas. \", explicó Medina.", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[103:103] --> decoded_text[104:105] '' --> ' '", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", - "diff": [ - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "– Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", - "diff": [ - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", - "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", - "diff": [ - "insert text[62:62] --> decoded_text[62:63] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "El segundo párrafo de este número ha sido incorporado por:", - "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", - "diff": [ - "insert text[57:57] --> decoded_text[57:58] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", - "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "a la Empresa el 50% del periodo restante en la fecha señalada", - "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", - "diff": [ - "insert text[18:18] --> decoded_text[18:19] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", - "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", - "diff": [ - "insert text[33:33] --> decoded_text[33:34] '' --> ' '", - "insert text[34:34] --> decoded_text[35:36] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici … en definitiva …. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "insert text[77:77] --> decoded_text[77:78] '' --> ' '", - "insert text[78:78] --> decoded_text[79:80] '' --> ' '", - "insert text[91:91] --> decoded_text[93:94] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas. \", explicó Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", + "diff": [ + "insert text[62:62] --> decoded_text[62:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", + "diff": [ + "insert text[57:57] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", + "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", + "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[34:34] --> decoded_text[35:36] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici … en definitiva …. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> ' '", + "insert text[78:78] --> decoded_text[79:80] '' --> ' '", + "insert text[91:91] --> decoded_text[93:94] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json index bb60771e67b7b26cd11aef97f2b3f82db2080e34..4cca459fb4e438415a5f3c250a97405d56acf0e0 100644 --- a/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json @@ -1,119 +1,119 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire ça dans la soirée? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "delete text[193:194] --> decoded_text[194:194] ' ' --> ''", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "diff": [ - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- J'ai tendance à voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "diff": [ - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", - "decoded_text": "A la fin, on essayera de trouver des points communs à tous et de tout \" remettre au propre \"", - "diff": [ - "insert text[71:71] --> decoded_text[71:72] '' --> ' '", - "insert text[89:89] --> decoded_text[90:91] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", - "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations )", - "diff": [ - "insert text[64:64] --> decoded_text[64:65] '' --> ' '", - "insert text[229:229] --> decoded_text[230:231] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", - "decoded_text": "- quand quelqu'un critique quelque chose ( ex. plan Vigipirate ) j'essaie tout de suite de réfléchir à une autre solution ( bon ça c'est normal mais je le dis quand même )", - "diff": [ - "insert text[42:42] --> decoded_text[42:43] '' --> ' '", - "insert text[61:61] --> decoded_text[62:63] '' --> ' '", - "insert text[121:121] --> decoded_text[123:124] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", - "decoded_text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins ( généralement pas mon âge pile - poil, la plupart de mes amis ont un ou deux ans de plus que moi )", - "diff": [ - "insert text[82:82] --> decoded_text[82:83] '' --> ' '", - "insert text[111:111] --> decoded_text[112:113] '' --> ' '", - "insert text[112:112] --> decoded_text[114:115] '' --> ' '", - "insert text[175:175] --> decoded_text[178:179] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison ( et c'est moi qui le dis! ), je sais reconnaître quand j'ai tort", - "diff": [ - "insert text[127:127] --> decoded_text[127:128] '' --> ' '", - "insert text[150:150] --> decoded_text[151:152] '' --> '!'", - "delete text[151:152] --> decoded_text[153:153] '!' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'écris très vite et très mal (tout le monde s'en fout)", - "decoded_text": "- j'écris très vite et très mal ( tout le monde s'en fout )", - "diff": [ - "insert text[33:33] --> decoded_text[33:34] '' --> ' '", - "insert text[56:56] --> decoded_text[57:58] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", - "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre ( du moins la majorité ), mais je Cornichonçois peut - être trop bien que tout le monde est différent", - "diff": [ - "insert text[136:136] --> decoded_text[136:137] '' --> ' '", - "insert text[186:186] --> decoded_text[187:188] '' --> ' '", - "insert text[187:187] --> decoded_text[189:190] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire ça dans la soirée? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "delete text[193:194] --> decoded_text[194:194] ' ' --> ''", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance à voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", + "decoded_text": "A la fin, on essayera de trouver des points communs à tous et de tout \" remettre au propre \"", + "diff": [ + "insert text[71:71] --> decoded_text[71:72] '' --> ' '", + "insert text[89:89] --> decoded_text[90:91] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations )", + "diff": [ + "insert text[64:64] --> decoded_text[64:65] '' --> ' '", + "insert text[229:229] --> decoded_text[230:231] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose ( ex. plan Vigipirate ) j'essaie tout de suite de réfléchir à une autre solution ( bon ça c'est normal mais je le dis quand même )", + "diff": [ + "insert text[42:42] --> decoded_text[42:43] '' --> ' '", + "insert text[61:61] --> decoded_text[62:63] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins ( généralement pas mon âge pile - poil, la plupart de mes amis ont un ou deux ans de plus que moi )", + "diff": [ + "insert text[82:82] --> decoded_text[82:83] '' --> ' '", + "insert text[111:111] --> decoded_text[112:113] '' --> ' '", + "insert text[112:112] --> decoded_text[114:115] '' --> ' '", + "insert text[175:175] --> decoded_text[178:179] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison ( et c'est moi qui le dis! ), je sais reconnaître quand j'ai tort", + "diff": [ + "insert text[127:127] --> decoded_text[127:128] '' --> ' '", + "insert text[150:150] --> decoded_text[151:152] '' --> '!'", + "delete text[151:152] --> decoded_text[153:153] '!' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'écris très vite et très mal (tout le monde s'en fout)", + "decoded_text": "- j'écris très vite et très mal ( tout le monde s'en fout )", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[56:56] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre ( du moins la majorité ), mais je Cornichonçois peut - être trop bien que tout le monde est différent", + "diff": [ + "insert text[136:136] --> decoded_text[136:137] '' --> ' '", + "insert text[186:186] --> decoded_text[187:188] '' --> ' '", + "insert text[187:187] --> decoded_text[189:190] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json index c6ed9130ea69dbb986e1bb83f99d50dd026e55bd..1e41a5835530ae2395432b7c93b6cdc845b80313 100644 --- a/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json @@ -1,372 +1,372 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] 公 司 [UNK] 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] [UNK] [UNK] [UNK] 4S [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", - "diff": [ - "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[55:56] '' --> ' '", - "insert text[14:14] --> decoded_text[60:61] '' --> ' '", - "insert text[26:26] --> decoded_text[73:74] '' --> ' '", - "insert text[29:29] --> decoded_text[77:78] '' --> ' '", - "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", - "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[41:41] --> decoded_text[122:123] '' --> ' '", - "replace text[42:48] --> decoded_text[124:161] '加入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[162:163] '' --> ' '", - "replace text[50:55] --> decoded_text[164:195] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[56:57] --> decoded_text[196:203] '职' --> ' [UNK] '", - "replace text[58:61] --> decoded_text[204:223] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[224:225] '' --> ' '", - "replace text[63:67] --> decoded_text[226:251] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[68:71] --> decoded_text[252:271] '际市场' --> ' [UNK] [UNK] [UNK] '", - "replace text[72:75] --> decoded_text[272:291] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[76:83] --> decoded_text[292:335] '路虎以外的业务' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[84:89] --> decoded_text[336:367] '这位斯坦福' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[90:94] --> decoded_text[368:393] '学的毕业' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[95:95] --> decoded_text[394:395] '' --> ' '", - "replace text[96:103] --> decoded_text[396:439] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[104:104] --> decoded_text[440:441] '' --> ' '", - "replace text[105:107] --> decoded_text[442:455] '合资' --> ' [UNK] [UNK] '", - "insert text[108:108] --> decoded_text[456:457] '' --> ' '", - "replace text[109:110] --> decoded_text[458:465] '的' --> ' [UNK] '", - "replace text[111:112] --> decoded_text[466:473] '近' --> ' [UNK] '", - "insert text[113:113] --> decoded_text[474:475] '' --> ' '", - "replace text[114:121] --> decoded_text[476:519] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[122:122] --> decoded_text[520:521] '' --> ' '", - "replace text[123:125] --> decoded_text[522:535] '传奇' --> ' [UNK] [UNK] '", - "insert text[126:126] --> decoded_text[536:537] '' --> ' '", - "replace text[127:131] --> decoded_text[538:563] '现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[133:136] --> decoded_text[565:584] '店得知' --> ' [UNK] [UNK] [UNK] '", - "replace text[137:148] --> decoded_text[585:652] '店内朗动车型有现车供应' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[149:158] --> decoded_text[653:708] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[159:159] --> decoded_text[709:710] '' --> ' '", - "replace text[163:168] --> decoded_text[714:745] '元优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[169:174] --> decoded_text[746:777] '具体的车型' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[175:181] --> decoded_text[778:815] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[182:183] --> decoded_text[816:823] '表' --> ' [UNK] '", - "insert text[184:184] --> decoded_text[824:825] '' --> ' '", - "replace text[185:196] --> decoded_text[826:893] '时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[206:207] --> decoded_text[903:910] '转' --> ' [UNK] '", - "replace text[211:213] --> decoded_text[914:927] '详询' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 134, - "oov_ratio": 0.6261682242990654, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"福\", \"学\", \"毕\", \"曾\", \"通\", \"用\", \"合\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 [UNK] [UNK] [UNK] [UNK] [UNK] 》 [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] [UNK] [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 上 [UNK] [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[21:22] '' --> ' '", - "insert text[6:6] --> decoded_text[23:24] '' --> ' '", - "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", - "replace text[9:14] --> decoded_text[33:64] '幸福终点站' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[15:19] --> decoded_text[65:90] '的案例令' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[20:20] --> decoded_text[91:92] '' --> ' '", - "replace text[21:27] --> decoded_text[93:130] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[28:35] --> decoded_text[131:174] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[36:51] --> decoded_text[175:266] '由于行前未能仔细核对签证有效期' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[52:52] --> decoded_text[267:268] '' --> ' '", - "replace text[53:61] --> decoded_text[269:318] '对赴俄罗斯旅游的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[319:320] '' --> ' '", - "insert text[63:63] --> decoded_text[321:322] '' --> ' '", - "replace text[64:79] --> decoded_text[323:414] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[80:86] --> decoded_text[415:452] '在胡滨的协助' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[87:87] --> decoded_text[453:454] '' --> ' '", - "replace text[88:90] --> decoded_text[455:468] '这对' --> ' [UNK] [UNK] '", - "replace text[91:96] --> decoded_text[469:500] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:101] --> decoded_text[501:526] '动魄的3' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[102:103] --> decoded_text[527:534] '时' --> ' [UNK] '", - "replace text[104:115] --> decoded_text[535:602] '终于在飞机起飞前5分钟' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[116:117] --> decoded_text[603:610] '登' --> ' [UNK] '", - "replace text[118:123] --> decoded_text[611:642] '返程的航班' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 99, - "oov_ratio": 0.7983870967741935, - "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"的\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 江 [UNK] [UNK] [UNK] 中 [UNK] [UNK] , 中 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 [UNK] [UNK] [UNK] [UNK] 大 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 新 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 同 社 [UNK] [UNK] [UNK] 国 [UNK] 和 平 [UNK] [UNK] [UNK] 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[0:9] --> decoded_text[0:54] '招财带什么佛牌张德' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[10:13] --> decoded_text[55:74] '在致辞' --> ' [UNK] [UNK] [UNK] '", - "replace text[14:16] --> decoded_text[75:88] '表示' --> ' [UNK] [UNK] '", - "insert text[17:17] --> decoded_text[89:90] '' --> ' '", - "replace text[18:24] --> decoded_text[91:128] '法建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:29] --> decoded_text[129:154] '法两个伟' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[30:30] --> decoded_text[155:156] '' --> ' '", - "replace text[31:37] --> decoded_text[157:194] '家友好关系的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:40] --> decoded_text[195:208] '纪元' --> ' [UNK] [UNK] '", - "replace text[41:45] --> decoded_text[209:234] '树立了不' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[46:46] --> decoded_text[235:236] '' --> ' '", - "replace text[47:50] --> decoded_text[237:256] '会制度' --> ' [UNK] [UNK] [UNK] '", - "replace text[51:52] --> decoded_text[257:264] '家' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[265:266] '' --> ' '", - "replace text[54:57] --> decoded_text[267:286] '共处的' --> ' [UNK] [UNK] [UNK] '", - "replace text[58:60] --> decoded_text[287:300] '典范' --> ' [UNK] [UNK] '", - "replace text[61:62] --> decoded_text[301:308] '对' --> ' [UNK] '", - "replace text[63:69] --> decoded_text[309:346] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[70:72] --> decoded_text[347:360] '了重' --> ' [UNK] [UNK] '", - "replace text[73:79] --> decoded_text[361:398] '而深远的影响' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 60, - "oov_ratio": 0.75, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"在\", \"致\", \"辞\", \"表\", \"示\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"会\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 [UNK] 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[12:12] --> decoded_text[67:68] '' --> ' '", - "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", - "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", - "insert text[31:31] --> decoded_text[161:162] '' --> ' '", - "replace text[32:33] --> decoded_text[163:170] '英' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[171:172] '' --> ' '", - "replace text[35:37] --> decoded_text[173:186] '印度' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[187:188] '' --> ' '", - "insert text[39:39] --> decoded_text[189:190] '' --> ' '", - "replace text[40:42] --> decoded_text[191:204] '工作' --> ' [UNK] [UNK] '", - "insert text[43:43] --> decoded_text[205:206] '' --> ' '", - "insert text[47:47] --> decoded_text[210:211] '' --> ' '", - "insert text[48:48] --> decoded_text[212:213] '' --> ' '", - "replace text[49:54] --> decoded_text[214:245] '他成为联合' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[55:59] --> decoded_text[246:271] '驻东帝汶' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[60:61] --> decoded_text[272:279] '队' --> ' [UNK] '", - "replace text[62:63] --> decoded_text[280:287] '令' --> ' [UNK] '", - "replace text[64:72] --> decoded_text[288:337] '监督东帝汶向独立' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[73:77] --> decoded_text[338:363] '家的过渡' --> ' [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 53, - "oov_ratio": 0.6794871794871795, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"英\", \"印\", \"度\", \"工\", \"作\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 [UNK] [UNK] [UNK] [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 [UNK] [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] : [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( RingoStarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 [UNK] [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( JuliaRoberts ) [UNK] [UNK] [UNK] [UNK] 二 人 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 [UNK] 《 QueenieEye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 Photograph 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 日 [UNK] 美 [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "replace text[5:9] --> decoded_text[8:33] '电据香港' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[34:35] '' --> ' '", - "replace text[11:12] --> decoded_text[36:43] '报' --> ' [UNK] '", - "replace text[13:15] --> decoded_text[44:57] '消息' --> ' [UNK] [UNK] '", - "replace text[16:21] --> decoded_text[58:89] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[22:24] --> decoded_text[90:103] '进军' --> ' [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[104:105] '' --> ' '", - "replace text[26:30] --> decoded_text[106:131] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[32:33] --> decoded_text[133:140] '周' --> ' [UNK] '", - "replace text[34:37] --> decoded_text[141:160] '的纪念' --> ' [UNK] [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[161:162] '' --> ' '", - "insert text[39:39] --> decoded_text[163:164] '' --> ' '", - "replace text[40:42] --> decoded_text[165:178] '格莱' --> ' [UNK] [UNK] '", - "replace text[43:50] --> decoded_text[179:222] '向两名仅存成员' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[51:58] --> decoded_text[223:266] '保罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[267:268] '' --> ' '", - "replace text[60:61] --> decoded_text[269:276] '达' --> ' [UNK] '", - "insert text[62:62] --> decoded_text[277:278] '' --> ' '", - "insert text[72:72] --> decoded_text[288:289] '' --> ' '", - "replace text[73:80] --> decoded_text[290:333] '颁发终身成就奖' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[81:87] --> decoded_text[334:371] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[88:93] --> decoded_text[372:403] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[94:94] --> decoded_text[404:405] '' --> ' '", - "insert text[95:95] --> decoded_text[406:407] '' --> ' '", - "replace text[96:99] --> decoded_text[408:427] '会请来' --> ' [UNK] [UNK] [UNK] '", - "replace text[100:106] --> decoded_text[428:465] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[107:107] --> decoded_text[466:467] '' --> ' '", - "replace text[108:111] --> decoded_text[468:487] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", - "insert text[112:112] --> decoded_text[488:489] '' --> ' '", - "insert text[124:124] --> decoded_text[501:502] '' --> ' '", - "replace text[125:129] --> decoded_text[503:528] '负责介绍' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[130:130] --> decoded_text[529:530] '' --> ' '", - "replace text[131:133] --> decoded_text[531:544] '出场' --> ' [UNK] [UNK] '", - "replace text[134:142] --> decoded_text[545:594] '保罗在拍档的鼓声' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[143:144] --> decoded_text[595:602] '应' --> ' [UNK] '", - "insert text[145:145] --> decoded_text[603:604] '' --> ' '", - "replace text[146:149] --> decoded_text[605:624] '先献唱' --> ' [UNK] [UNK] [UNK] '", - "replace text[150:151] --> decoded_text[625:632] '歌' --> ' [UNK] '", - "insert text[152:152] --> decoded_text[633:634] '' --> ' '", - "insert text[162:162] --> decoded_text[644:645] '' --> ' '", - "insert text[163:163] --> decoded_text[646:647] '' --> ' '", - "replace text[164:174] --> decoded_text[648:709] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[175:175] --> decoded_text[710:711] '' --> ' '", - "insert text[185:185] --> decoded_text[721:722] '' --> ' '", - "insert text[186:186] --> decoded_text[723:724] '' --> ' '", - "replace text[187:194] --> decoded_text[725:768] '带领歌迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[195:196] --> decoded_text[769:776] '的' --> ' [UNK] '", - "replace text[197:200] --> decoded_text[777:796] '好情怀' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 109, - "oov_ratio": 0.5422885572139303, - "oov_charset": "[\"电\", \"据\", \"香\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"的\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"会\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] , [UNK] 司 [UNK] [UNK] [UNK] 21 [UNK] , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] , [UNK] [UNK] [UNK] [UNK] 6 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[0:23] --> decoded_text[0:134] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:28] --> decoded_text[136:151] '元,但' --> ' [UNK] , [UNK] '", - "replace text[29:32] --> decoded_text[152:171] '机到账' --> ' [UNK] [UNK] [UNK] '", - "replace text[34:39] --> decoded_text[173:196] '元,因此,' --> ' [UNK] , [UNK] [UNK] , '", - "replace text[40:44] --> decoded_text[197:222] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:54] --> decoded_text[223:274] '元,除去之前支付的' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[55:61] --> decoded_text[275:308] '元,记者净赚' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", - "replace text[62:69] --> decoded_text[309:348] '元,还免费乘了' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[70:73] --> decoded_text[349:368] '应支付' --> ' [UNK] [UNK] [UNK] '", - "replace text[75:78] --> decoded_text[370:389] '元的车' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 59, - "oov_ratio": 0.7468354430379747, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] 。 ( 方 [UNK] [UNK] )", - "diff": [ - "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", - "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[42:43] '' --> ' '", - "replace text[12:18] --> decoded_text[44:81] '加入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[19:19] --> decoded_text[82:83] '' --> ' '", - "replace text[20:25] --> decoded_text[84:115] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[26:27] --> decoded_text[116:123] '职' --> ' [UNK] '", - "replace text[28:31] --> decoded_text[124:143] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[144:145] '' --> ' '", - "replace text[33:37] --> decoded_text[146:171] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:41] --> decoded_text[172:191] '际市场' --> ' [UNK] [UNK] [UNK] '", - "replace text[42:45] --> decoded_text[192:211] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[46:53] --> decoded_text[212:255] '路虎以外的业务' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[54:59] --> decoded_text[256:287] '这位斯坦福' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[60:64] --> decoded_text[288:313] '学的毕业' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[65:65] --> decoded_text[314:315] '' --> ' '", - "replace text[66:73] --> decoded_text[316:359] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[74:74] --> decoded_text[360:361] '' --> ' '", - "replace text[75:77] --> decoded_text[362:375] '合资' --> ' [UNK] [UNK] '", - "insert text[78:78] --> decoded_text[376:377] '' --> ' '", - "replace text[79:83] --> decoded_text[378:403] '的副总裁' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[84:84] --> decoded_text[404:405] '' --> ' '", - "replace text[85:90] --> decoded_text[406:437] '汽通用五菱' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[91:91] --> decoded_text[438:439] '' --> ' '", - "replace text[92:104] --> decoded_text[440:513] '的副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[105:105] --> decoded_text[514:515] '' --> ' '", - "replace text[106:109] --> decoded_text[516:535] '的总裁' --> ' [UNK] [UNK] [UNK] '", - "insert text[110:110] --> decoded_text[536:537] '' --> ' '", - "insert text[111:111] --> decoded_text[538:539] '' --> ' '", - "replace text[112:114] --> decoded_text[540:553] '赵春' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 82, - "oov_ratio": 0.7130434782608696, - "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"福\", \"学\", \"毕\", \"曾\", \"通\", \"用\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"赵\", \"春\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 部 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 人 , [UNK] [UNK] 神 , 人 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] : “ [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[1:8] --> decoded_text[1:44] '腕导演不可能每' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[9:18] --> decoded_text[45:100] '作品都是你喜欢的东' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[19:23] --> decoded_text[101:122] ',如果他' --> ' , [UNK] [UNK] [UNK] '", - "replace text[24:37] --> decoded_text[123:198] '时控制不住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:41] --> decoded_text[199:218] '他也是' --> ' [UNK] [UNK] [UNK] '", - "replace text[42:45] --> decoded_text[219:234] ',不是' --> ' , [UNK] [UNK] '", - "replace text[46:47] --> decoded_text[235:238] ',' --> ' , '", - "replace text[48:55] --> decoded_text[239:282] '就有自己的脾气' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[56:69] --> decoded_text[283:358] '他这次执导春晚,对我也开骂' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[70:70] --> decoded_text[359:360] '' --> ' '", - "replace text[71:88] --> decoded_text[361:456] '老毕,我跟你说了这么长时间,让你走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[89:96] --> decoded_text[457:496] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:111] --> decoded_text[497:578] '号位,你想跟我较死劲是不是?' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[112:116] --> decoded_text[579:604] '这也是骂' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[117:117] --> decoded_text[605:606] '' --> ' '", - "replace text[118:131] --> decoded_text[607:682] '但因为你非常了解他,他也不' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[132:136] --> decoded_text[683:708] '定有恶意' --> ' [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 109, - "oov_ratio": 0.7956204379562044, - "oov_charset": "[\"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"也\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 花 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 年 [UNK] 高 [UNK] 360 [UNK] [UNK] 人 [UNK] [UNK] , 李 [UNK] [UNK] 年 [UNK] 花 [UNK] [UNK] 600 [UNK] [UNK] [UNK] 。 [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "replace text[0:12] --> decoded_text[0:72] '招财带什么佛牌不过挣得多' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[13:16] --> decoded_text[73:92] '娜姐也' --> ' [UNK] [UNK] [UNK] '", - "replace text[17:19] --> decoded_text[93:106] '得多' --> ' [UNK] [UNK] '", - "replace text[20:24] --> decoded_text[107:132] '有媒体报' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[133:134] '' --> ' '", - "replace text[26:32] --> decoded_text[135:172] '教练卡洛斯的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[33:34] --> decoded_text[173:180] '薪' --> ' [UNK] '", - "replace text[35:36] --> decoded_text[181:188] '达' --> ' [UNK] '", - "replace text[39:41] --> decoded_text[191:204] '万元' --> ' [UNK] [UNK] '", - "replace text[42:44] --> decoded_text[205:218] '民币' --> ' [UNK] [UNK] '", - "insert text[45:45] --> decoded_text[219:220] '' --> ' '", - "replace text[46:48] --> decoded_text[221:234] '娜每' --> ' [UNK] [UNK] '", - "replace text[49:50] --> decoded_text[235:242] '的' --> ' [UNK] '", - "replace text[51:53] --> decoded_text[243:256] '费是' --> ' [UNK] [UNK] '", - "replace text[56:59] --> decoded_text[259:278] '多万元' --> ' [UNK] [UNK] [UNK] '", - "replace text[60:61] --> decoded_text[279:286] '用' --> ' [UNK] '", - "replace text[62:68] --> decoded_text[287:324] '个形象的比喻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[69:72] --> decoded_text[325:344] '娜姐每' --> ' [UNK] [UNK] [UNK] '", - "insert text[73:73] --> decoded_text[345:346] '' --> ' '", - "replace text[74:76] --> decoded_text[347:360] '睁眼' --> ' [UNK] [UNK] '", - "replace text[77:79] --> decoded_text[361:374] '将近' --> ' [UNK] [UNK] '", - "replace text[80:86] --> decoded_text[375:412] '万元就出去了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 61, - "oov_ratio": 0.7011494252873564, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"也\", \"有\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"薪\", \"达\", \"万\", \"元\", \"民\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 [UNK] [UNK] 小 [UNK] 《 [UNK] 城 [UNK] 》 [UNK] [UNK] 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] [UNK] [UNK] 人 [UNK] [UNK] 事 [UNK] [UNK] 心 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:16] '庸的' --> ' [UNK] [UNK] '", - "replace text[5:6] --> decoded_text[17:24] '说' --> ' [UNK] '", - "replace text[7:8] --> decoded_text[25:32] '连' --> ' [UNK] '", - "replace text[9:10] --> decoded_text[33:40] '诀' --> ' [UNK] '", - "replace text[11:13] --> decoded_text[41:54] '里有' --> ' [UNK] [UNK] '", - "replace text[14:17] --> decoded_text[55:74] '个反派' --> ' [UNK] [UNK] [UNK] '", - "replace text[18:19] --> decoded_text[75:82] '物' --> ' [UNK] '", - "replace text[20:24] --> decoded_text[83:108] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[109:110] '' --> ' '", - "insert text[26:26] --> decoded_text[111:112] '' --> ' '", - "replace text[27:30] --> decoded_text[113:132] '般的坏' --> ' [UNK] [UNK] [UNK] '", - "replace text[31:33] --> decoded_text[133:146] '做坏' --> ' [UNK] [UNK] '", - "replace text[34:36] --> decoded_text[147:160] '都是' --> ' [UNK] [UNK] '", - "replace text[37:39] --> decoded_text[161:174] '虚的' --> ' [UNK] [UNK] '", - "replace text[40:44] --> decoded_text[175:200] '但是这个' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:49] --> decoded_text[201:226] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[227:228] '' --> ' '", - "replace text[51:53] --> decoded_text[229:242] '理得' --> ' [UNK] [UNK] '", - "replace text[54:58] --> decoded_text[243:268] '理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[59:71] --> decoded_text[269:342] '我遇到的这个的哥就是这样' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[343:344] '' --> ' '", - "insert text[73:73] --> decoded_text[345:346] '' --> ' '", - "replace text[74:75] --> decoded_text[347:354] '先' --> ' [UNK] '", - "replace text[76:85] --> decoded_text[355:410] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[86:92] --> decoded_text[411:448] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[93:93] --> decoded_text[449:450] '' --> ' '", - "replace text[94:95] --> decoded_text[451:458] '来' --> ' [UNK] '", - "replace text[96:97] --> decoded_text[459:466] '昨' --> ' [UNK] '", - "insert text[98:98] --> decoded_text[467:468] '' --> ' '", - "replace text[99:100] --> decoded_text[469:476] '先' --> ' [UNK] '", - "replace text[101:107] --> decoded_text[477:514] '在搭出租车时' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[108:115] --> decoded_text[515:558] '遇到的的哥不仅' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[116:117] --> decoded_text[559:566] '拾' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[567:580] '而昧' --> ' [UNK] [UNK] '", - "insert text[121:121] --> decoded_text[581:582] '' --> ' '", - "replace text[122:123] --> decoded_text[583:590] '还' --> ' [UNK] '", - "replace text[124:125] --> decoded_text[591:598] '昧' --> ' [UNK] '", - "replace text[126:131] --> decoded_text[599:630] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 92, - "oov_ratio": 0.696969696969697, - "oov_charset": "[\"庸\", \"的\", \"说\", \"连\", \"诀\", \"里\", \"有\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"都\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] 公 司 [UNK] 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] [UNK] [UNK] [UNK] 4S [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", + "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[122:123] '' --> ' '", + "replace text[42:48] --> decoded_text[124:161] '加入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[162:163] '' --> ' '", + "replace text[50:55] --> decoded_text[164:195] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:57] --> decoded_text[196:203] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[204:223] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[224:225] '' --> ' '", + "replace text[63:67] --> decoded_text[226:251] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[252:271] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[72:75] --> decoded_text[272:291] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:83] --> decoded_text[292:335] '路虎以外的业务' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[84:89] --> decoded_text[336:367] '这位斯坦福' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[90:94] --> decoded_text[368:393] '学的毕业' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[95:95] --> decoded_text[394:395] '' --> ' '", + "replace text[96:103] --> decoded_text[396:439] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[104:104] --> decoded_text[440:441] '' --> ' '", + "replace text[105:107] --> decoded_text[442:455] '合资' --> ' [UNK] [UNK] '", + "insert text[108:108] --> decoded_text[456:457] '' --> ' '", + "replace text[109:110] --> decoded_text[458:465] '的' --> ' [UNK] '", + "replace text[111:112] --> decoded_text[466:473] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[474:475] '' --> ' '", + "replace text[114:121] --> decoded_text[476:519] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[122:122] --> decoded_text[520:521] '' --> ' '", + "replace text[123:125] --> decoded_text[522:535] '传奇' --> ' [UNK] [UNK] '", + "insert text[126:126] --> decoded_text[536:537] '' --> ' '", + "replace text[127:131] --> decoded_text[538:563] '现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[133:136] --> decoded_text[565:584] '店得知' --> ' [UNK] [UNK] [UNK] '", + "replace text[137:148] --> decoded_text[585:652] '店内朗动车型有现车供应' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[149:158] --> decoded_text[653:708] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[159:159] --> decoded_text[709:710] '' --> ' '", + "replace text[163:168] --> decoded_text[714:745] '元优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[169:174] --> decoded_text[746:777] '具体的车型' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[175:181] --> decoded_text[778:815] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[816:823] '表' --> ' [UNK] '", + "insert text[184:184] --> decoded_text[824:825] '' --> ' '", + "replace text[185:196] --> decoded_text[826:893] '时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[903:910] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[914:927] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 134, + "oov_ratio": 0.6261682242990654, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"福\", \"学\", \"毕\", \"曾\", \"通\", \"用\", \"合\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 [UNK] [UNK] [UNK] [UNK] [UNK] 》 [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] [UNK] [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 上 [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", + "replace text[9:14] --> decoded_text[33:64] '幸福终点站' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[15:19] --> decoded_text[65:90] '的案例令' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[91:92] '' --> ' '", + "replace text[21:27] --> decoded_text[93:130] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[28:35] --> decoded_text[131:174] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:51] --> decoded_text[175:266] '由于行前未能仔细核对签证有效期' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[267:268] '' --> ' '", + "replace text[53:61] --> decoded_text[269:318] '对赴俄罗斯旅游的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[319:320] '' --> ' '", + "insert text[63:63] --> decoded_text[321:322] '' --> ' '", + "replace text[64:79] --> decoded_text[323:414] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:86] --> decoded_text[415:452] '在胡滨的协助' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[453:454] '' --> ' '", + "replace text[88:90] --> decoded_text[455:468] '这对' --> ' [UNK] [UNK] '", + "replace text[91:96] --> decoded_text[469:500] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:101] --> decoded_text[501:526] '动魄的3' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[102:103] --> decoded_text[527:534] '时' --> ' [UNK] '", + "replace text[104:115] --> decoded_text[535:602] '终于在飞机起飞前5分钟' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[116:117] --> decoded_text[603:610] '登' --> ' [UNK] '", + "replace text[118:123] --> decoded_text[611:642] '返程的航班' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 99, + "oov_ratio": 0.7983870967741935, + "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"的\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 江 [UNK] [UNK] [UNK] 中 [UNK] [UNK] , 中 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 [UNK] [UNK] [UNK] [UNK] 大 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 新 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 同 社 [UNK] [UNK] [UNK] 国 [UNK] 和 平 [UNK] [UNK] [UNK] 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '招财带什么佛牌张德' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[10:13] --> decoded_text[55:74] '在致辞' --> ' [UNK] [UNK] [UNK] '", + "replace text[14:16] --> decoded_text[75:88] '表示' --> ' [UNK] [UNK] '", + "insert text[17:17] --> decoded_text[89:90] '' --> ' '", + "replace text[18:24] --> decoded_text[91:128] '法建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:29] --> decoded_text[129:154] '法两个伟' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[30:30] --> decoded_text[155:156] '' --> ' '", + "replace text[31:37] --> decoded_text[157:194] '家友好关系的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:40] --> decoded_text[195:208] '纪元' --> ' [UNK] [UNK] '", + "replace text[41:45] --> decoded_text[209:234] '树立了不' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[46:46] --> decoded_text[235:236] '' --> ' '", + "replace text[47:50] --> decoded_text[237:256] '会制度' --> ' [UNK] [UNK] [UNK] '", + "replace text[51:52] --> decoded_text[257:264] '家' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[265:266] '' --> ' '", + "replace text[54:57] --> decoded_text[267:286] '共处的' --> ' [UNK] [UNK] [UNK] '", + "replace text[58:60] --> decoded_text[287:300] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[301:308] '对' --> ' [UNK] '", + "replace text[63:69] --> decoded_text[309:346] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[347:360] '了重' --> ' [UNK] [UNK] '", + "replace text[73:79] --> decoded_text[361:398] '而深远的影响' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 60, + "oov_ratio": 0.75, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"在\", \"致\", \"辞\", \"表\", \"示\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"会\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 [UNK] 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[12:12] --> decoded_text[67:68] '' --> ' '", + "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", + "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", + "insert text[31:31] --> decoded_text[161:162] '' --> ' '", + "replace text[32:33] --> decoded_text[163:170] '英' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[171:172] '' --> ' '", + "replace text[35:37] --> decoded_text[173:186] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[187:188] '' --> ' '", + "insert text[39:39] --> decoded_text[189:190] '' --> ' '", + "replace text[40:42] --> decoded_text[191:204] '工作' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[205:206] '' --> ' '", + "insert text[47:47] --> decoded_text[210:211] '' --> ' '", + "insert text[48:48] --> decoded_text[212:213] '' --> ' '", + "replace text[49:54] --> decoded_text[214:245] '他成为联合' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:59] --> decoded_text[246:271] '驻东帝汶' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[60:61] --> decoded_text[272:279] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[280:287] '令' --> ' [UNK] '", + "replace text[64:72] --> decoded_text[288:337] '监督东帝汶向独立' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[73:77] --> decoded_text[338:363] '家的过渡' --> ' [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 53, + "oov_ratio": 0.6794871794871795, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"英\", \"印\", \"度\", \"工\", \"作\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] [UNK] [UNK] [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 [UNK] [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] : [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( RingoStarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 [UNK] [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( JuliaRoberts ) [UNK] [UNK] [UNK] [UNK] 二 人 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 [UNK] 《 QueenieEye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 Photograph 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 日 [UNK] 美 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:9] --> decoded_text[8:33] '电据香港' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[34:35] '' --> ' '", + "replace text[11:12] --> decoded_text[36:43] '报' --> ' [UNK] '", + "replace text[13:15] --> decoded_text[44:57] '消息' --> ' [UNK] [UNK] '", + "replace text[16:21] --> decoded_text[58:89] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[90:103] '进军' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[104:105] '' --> ' '", + "replace text[26:30] --> decoded_text[106:131] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[133:140] '周' --> ' [UNK] '", + "replace text[34:37] --> decoded_text[141:160] '的纪念' --> ' [UNK] [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[161:162] '' --> ' '", + "insert text[39:39] --> decoded_text[163:164] '' --> ' '", + "replace text[40:42] --> decoded_text[165:178] '格莱' --> ' [UNK] [UNK] '", + "replace text[43:50] --> decoded_text[179:222] '向两名仅存成员' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[51:58] --> decoded_text[223:266] '保罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[267:268] '' --> ' '", + "replace text[60:61] --> decoded_text[269:276] '达' --> ' [UNK] '", + "insert text[62:62] --> decoded_text[277:278] '' --> ' '", + "insert text[72:72] --> decoded_text[288:289] '' --> ' '", + "replace text[73:80] --> decoded_text[290:333] '颁发终身成就奖' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[81:87] --> decoded_text[334:371] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[88:93] --> decoded_text[372:403] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[94:94] --> decoded_text[404:405] '' --> ' '", + "insert text[95:95] --> decoded_text[406:407] '' --> ' '", + "replace text[96:99] --> decoded_text[408:427] '会请来' --> ' [UNK] [UNK] [UNK] '", + "replace text[100:106] --> decoded_text[428:465] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[466:467] '' --> ' '", + "replace text[108:111] --> decoded_text[468:487] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "insert text[112:112] --> decoded_text[488:489] '' --> ' '", + "insert text[124:124] --> decoded_text[501:502] '' --> ' '", + "replace text[125:129] --> decoded_text[503:528] '负责介绍' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[130:130] --> decoded_text[529:530] '' --> ' '", + "replace text[131:133] --> decoded_text[531:544] '出场' --> ' [UNK] [UNK] '", + "replace text[134:142] --> decoded_text[545:594] '保罗在拍档的鼓声' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[595:602] '应' --> ' [UNK] '", + "insert text[145:145] --> decoded_text[603:604] '' --> ' '", + "replace text[146:149] --> decoded_text[605:624] '先献唱' --> ' [UNK] [UNK] [UNK] '", + "replace text[150:151] --> decoded_text[625:632] '歌' --> ' [UNK] '", + "insert text[152:152] --> decoded_text[633:634] '' --> ' '", + "insert text[162:162] --> decoded_text[644:645] '' --> ' '", + "insert text[163:163] --> decoded_text[646:647] '' --> ' '", + "replace text[164:174] --> decoded_text[648:709] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[175:175] --> decoded_text[710:711] '' --> ' '", + "insert text[185:185] --> decoded_text[721:722] '' --> ' '", + "insert text[186:186] --> decoded_text[723:724] '' --> ' '", + "replace text[187:194] --> decoded_text[725:768] '带领歌迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[195:196] --> decoded_text[769:776] '的' --> ' [UNK] '", + "replace text[197:200] --> decoded_text[777:796] '好情怀' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.5422885572139303, + "oov_charset": "[\"电\", \"据\", \"香\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"的\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"会\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] , [UNK] 司 [UNK] [UNK] [UNK] 21 [UNK] , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] , [UNK] [UNK] [UNK] [UNK] 6 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:23] --> decoded_text[0:134] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:28] --> decoded_text[136:151] '元,但' --> ' [UNK] , [UNK] '", + "replace text[29:32] --> decoded_text[152:171] '机到账' --> ' [UNK] [UNK] [UNK] '", + "replace text[34:39] --> decoded_text[173:196] '元,因此,' --> ' [UNK] , [UNK] [UNK] , '", + "replace text[40:44] --> decoded_text[197:222] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:54] --> decoded_text[223:274] '元,除去之前支付的' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:61] --> decoded_text[275:308] '元,记者净赚' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:69] --> decoded_text[309:348] '元,还免费乘了' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:73] --> decoded_text[349:368] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:78] --> decoded_text[370:389] '元的车' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 59, + "oov_ratio": 0.7468354430379747, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] 。 ( 方 [UNK] [UNK] )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[42:43] '' --> ' '", + "replace text[12:18] --> decoded_text[44:81] '加入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[82:83] '' --> ' '", + "replace text[20:25] --> decoded_text[84:115] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[26:27] --> decoded_text[116:123] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[124:143] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[144:145] '' --> ' '", + "replace text[33:37] --> decoded_text[146:171] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[172:191] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[192:211] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:53] --> decoded_text[212:255] '路虎以外的业务' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[54:59] --> decoded_text[256:287] '这位斯坦福' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[60:64] --> decoded_text[288:313] '学的毕业' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[65:65] --> decoded_text[314:315] '' --> ' '", + "replace text[66:73] --> decoded_text[316:359] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[74:74] --> decoded_text[360:361] '' --> ' '", + "replace text[75:77] --> decoded_text[362:375] '合资' --> ' [UNK] [UNK] '", + "insert text[78:78] --> decoded_text[376:377] '' --> ' '", + "replace text[79:83] --> decoded_text[378:403] '的副总裁' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[404:405] '' --> ' '", + "replace text[85:90] --> decoded_text[406:437] '汽通用五菱' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[91:91] --> decoded_text[438:439] '' --> ' '", + "replace text[92:104] --> decoded_text[440:513] '的副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[514:515] '' --> ' '", + "replace text[106:109] --> decoded_text[516:535] '的总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[536:537] '' --> ' '", + "insert text[111:111] --> decoded_text[538:539] '' --> ' '", + "replace text[112:114] --> decoded_text[540:553] '赵春' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 82, + "oov_ratio": 0.7130434782608696, + "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"福\", \"学\", \"毕\", \"曾\", \"通\", \"用\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 部 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 人 , [UNK] [UNK] 神 , 人 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] : “ [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[1:8] --> decoded_text[1:44] '腕导演不可能每' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[9:18] --> decoded_text[45:100] '作品都是你喜欢的东' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[19:23] --> decoded_text[101:122] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "replace text[24:37] --> decoded_text[123:198] '时控制不住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[199:218] '他也是' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[219:234] ',不是' --> ' , [UNK] [UNK] '", + "replace text[46:47] --> decoded_text[235:238] ',' --> ' , '", + "replace text[48:55] --> decoded_text[239:282] '就有自己的脾气' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:69] --> decoded_text[283:358] '他这次执导春晚,对我也开骂' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[359:360] '' --> ' '", + "replace text[71:88] --> decoded_text[361:456] '老毕,我跟你说了这么长时间,让你走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[457:496] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:111] --> decoded_text[497:578] '号位,你想跟我较死劲是不是?' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:116] --> decoded_text[579:604] '这也是骂' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[117:117] --> decoded_text[605:606] '' --> ' '", + "replace text[118:131] --> decoded_text[607:682] '但因为你非常了解他,他也不' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[132:136] --> decoded_text[683:708] '定有恶意' --> ' [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.7956204379562044, + "oov_charset": "[\"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"也\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 花 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 年 [UNK] 高 [UNK] 360 [UNK] [UNK] 人 [UNK] [UNK] , 李 [UNK] [UNK] 年 [UNK] 花 [UNK] [UNK] 600 [UNK] [UNK] [UNK] 。 [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:12] --> decoded_text[0:72] '招财带什么佛牌不过挣得多' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[13:16] --> decoded_text[73:92] '娜姐也' --> ' [UNK] [UNK] [UNK] '", + "replace text[17:19] --> decoded_text[93:106] '得多' --> ' [UNK] [UNK] '", + "replace text[20:24] --> decoded_text[107:132] '有媒体报' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[133:134] '' --> ' '", + "replace text[26:32] --> decoded_text[135:172] '教练卡洛斯的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[33:34] --> decoded_text[173:180] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[181:188] '达' --> ' [UNK] '", + "replace text[39:41] --> decoded_text[191:204] '万元' --> ' [UNK] [UNK] '", + "replace text[42:44] --> decoded_text[205:218] '民币' --> ' [UNK] [UNK] '", + "insert text[45:45] --> decoded_text[219:220] '' --> ' '", + "replace text[46:48] --> decoded_text[221:234] '娜每' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[235:242] '的' --> ' [UNK] '", + "replace text[51:53] --> decoded_text[243:256] '费是' --> ' [UNK] [UNK] '", + "replace text[56:59] --> decoded_text[259:278] '多万元' --> ' [UNK] [UNK] [UNK] '", + "replace text[60:61] --> decoded_text[279:286] '用' --> ' [UNK] '", + "replace text[62:68] --> decoded_text[287:324] '个形象的比喻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[69:72] --> decoded_text[325:344] '娜姐每' --> ' [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[345:346] '' --> ' '", + "replace text[74:76] --> decoded_text[347:360] '睁眼' --> ' [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[361:374] '将近' --> ' [UNK] [UNK] '", + "replace text[80:86] --> decoded_text[375:412] '万元就出去了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 61, + "oov_ratio": 0.7011494252873564, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"也\", \"有\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"薪\", \"达\", \"万\", \"元\", \"民\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] [UNK] 小 [UNK] 《 [UNK] 城 [UNK] 》 [UNK] [UNK] 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] [UNK] [UNK] 人 [UNK] [UNK] 事 [UNK] [UNK] 心 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:16] '庸的' --> ' [UNK] [UNK] '", + "replace text[5:6] --> decoded_text[17:24] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[25:32] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[33:40] '诀' --> ' [UNK] '", + "replace text[11:13] --> decoded_text[41:54] '里有' --> ' [UNK] [UNK] '", + "replace text[14:17] --> decoded_text[55:74] '个反派' --> ' [UNK] [UNK] [UNK] '", + "replace text[18:19] --> decoded_text[75:82] '物' --> ' [UNK] '", + "replace text[20:24] --> decoded_text[83:108] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[109:110] '' --> ' '", + "insert text[26:26] --> decoded_text[111:112] '' --> ' '", + "replace text[27:30] --> decoded_text[113:132] '般的坏' --> ' [UNK] [UNK] [UNK] '", + "replace text[31:33] --> decoded_text[133:146] '做坏' --> ' [UNK] [UNK] '", + "replace text[34:36] --> decoded_text[147:160] '都是' --> ' [UNK] [UNK] '", + "replace text[37:39] --> decoded_text[161:174] '虚的' --> ' [UNK] [UNK] '", + "replace text[40:44] --> decoded_text[175:200] '但是这个' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[201:226] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[227:228] '' --> ' '", + "replace text[51:53] --> decoded_text[229:242] '理得' --> ' [UNK] [UNK] '", + "replace text[54:58] --> decoded_text[243:268] '理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[59:71] --> decoded_text[269:342] '我遇到的这个的哥就是这样' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[343:344] '' --> ' '", + "insert text[73:73] --> decoded_text[345:346] '' --> ' '", + "replace text[74:75] --> decoded_text[347:354] '先' --> ' [UNK] '", + "replace text[76:85] --> decoded_text[355:410] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[86:92] --> decoded_text[411:448] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[449:450] '' --> ' '", + "replace text[94:95] --> decoded_text[451:458] '来' --> ' [UNK] '", + "replace text[96:97] --> decoded_text[459:466] '昨' --> ' [UNK] '", + "insert text[98:98] --> decoded_text[467:468] '' --> ' '", + "replace text[99:100] --> decoded_text[469:476] '先' --> ' [UNK] '", + "replace text[101:107] --> decoded_text[477:514] '在搭出租车时' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[108:115] --> decoded_text[515:558] '遇到的的哥不仅' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[116:117] --> decoded_text[559:566] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[567:580] '而昧' --> ' [UNK] [UNK] '", + "insert text[121:121] --> decoded_text[581:582] '' --> ' '", + "replace text[122:123] --> decoded_text[583:590] '还' --> ' [UNK] '", + "replace text[124:125] --> decoded_text[591:598] '昧' --> ' [UNK] '", + "replace text[126:131] --> decoded_text[599:630] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 92, + "oov_ratio": 0.696969696969697, + "oov_charset": "[\"庸\", \"的\", \"说\", \"连\", \"诀\", \"里\", \"有\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"都\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json index 48321b4e84ad56898f7e32d875f249e76c540222..bb7bf2b19a3d95f779d0d0808c725430c07c6749 100644 --- a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json @@ -1,159 +1,159 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "[UNK] [UNK] is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. [UNK] on [UNK], the home is being sold by high - end real estate firm [UNK] [UNK] s [UNK] [UNK] [UNK].", - "diff": [ - "replace text[0:14] --> decoded_text[0:11] 'Belmont Estate' --> '[UNK] [UNK]'", - "insert text[37:37] --> decoded_text[34:35] '' --> ' '", - "insert text[70:70] --> decoded_text[68:69] '' --> ' '", - "insert text[140:140] --> decoded_text[139:140] '' --> ' '", - "replace text[150:167] --> decoded_text[150:190] 'Listed on Thursda' --> '[UNK] on [UNK], the home is being sold b'", - "replace text[168:186] --> decoded_text[191:194] ', the home is bein' --> ' hi'", - "replace text[187:200] --> decoded_text[195:197] ' sold by high' --> 'h '", - "replace text[201:259] --> decoded_text[198:251] 'end real estate firm Sotheby’s International Realty Canada' --> ' end real estate firm [UNK] [UNK] s [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.03461538461538462, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "[UNK] [UNK] the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent [UNK] [UNK] of [UNK] [UNK] s tells [UNK].", - "diff": [ - "replace text[0:7] --> decoded_text[0:11] '“Within' --> '[UNK] [UNK]'", - "replace text[19:20] --> decoded_text[23:30] '’' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[63:64] '' --> ' '", - "insert text[66:66] --> decoded_text[77:78] '' --> ' '", - "insert text[79:79] --> decoded_text[91:92] '' --> ' '", - "replace text[140:141] --> decoded_text[153:159] '”' --> ' [UNK]'", - "replace text[156:202] --> decoded_text[174:214] 'Christa Frosch of Sotheby’s tells BuzzBuzzNews' --> '[UNK] [UNK] of [UNK] [UNK] s tells [UNK]'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.054187192118226604, - "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "[UNK] three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. [UNK] to entertain, two main gallery halls can seat up to 100 guests. [UNK] [UNK] - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. [UNK] amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:12] 'The three' --> '[UNK] three '", - "insert text[10:10] --> decoded_text[13:14] '' --> ' '", - "replace text[92:97] --> decoded_text[96:101] 'Built' --> '[UNK]'", - "replace text[162:173] --> decoded_text[166:178] 'The Italian' --> '[UNK] [UNK] '", - "insert text[174:174] --> decoded_text[179:180] '' --> ' '", - "replace text[283:285] --> decoded_text[289:367] 'La' --> '[UNK] amenities include an indoor pool and sauna, a six - car garage and a pri'", - "replace text[286:339] --> decoded_text[368:384] 'ish amenities include an indoor pool and sauna, a six' --> 'ate entrance in '", - "replace text[340:381] --> decoded_text[385:396] 'car garage and a private entrance in-law’' --> ' law [UNK] '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.015424164524421594, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "[UNK] the property is a [UNK] - inspired garden with a variety of trees, plants and an orchard. [UNK] the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:11] --> decoded_text[0:5] 'Surrounding' --> '[UNK]'", - "replace text[30:40] --> decoded_text[24:30] 'Versailles' --> '[UNK] '", - "insert text[41:41] --> decoded_text[31:32] '' --> ' '", - "replace text[105:107] --> decoded_text[96:101] 'In' --> '[UNK]'", - "insert text[128:128] --> decoded_text[122:123] '' --> ' '", - "insert text[166:166] --> decoded_text[161:162] '' --> ' '", - "insert text[167:167] --> decoded_text[163:164] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "[UNK] to [UNK], the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:9] --> decoded_text[0:5] 'According' --> '[UNK]'", - "replace text[13:19] --> decoded_text[9:14] 'Frosch' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "[UNK] [UNK] just went to the market yesterday, it [UNK] s private through [UNK] [UNK] s and we [UNK] ve already started to get calls, [UNK] says [UNK].", - "diff": [ - "replace text[0:3] --> decoded_text[0:11] '“We' --> '[UNK] [UNK]'", - "replace text[41:42] --> decoded_text[49:56] '’' --> ' [UNK] '", - "replace text[60:68] --> decoded_text[74:86] 'Sotheby’' --> '[UNK] [UNK] '", - "replace text[76:77] --> decoded_text[94:101] '’' --> ' [UNK] '", - "replace text[109:110] --> decoded_text[133:139] '”' --> ' [UNK]'", - "replace text[116:122] --> decoded_text[145:150] 'Frosch' --> '[UNK]'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.06504065040650407, - "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "[UNK] well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. [UNK] will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'Stay' --> '[UNK]'", - "replace text[18:19] --> decoded_text[19:26] '—' --> ' [UNK] '", - "insert text[57:57] --> decoded_text[64:65] '' --> ' '", - "replace text[80:83] --> decoded_text[88:93] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[94:103] 'calorie' --> ' calorie '", - "replace text[103:106] --> decoded_text[115:120] 'You' --> '[UNK]'", - "replace text[139:140] --> decoded_text[153:160] '“' --> ' [UNK] '", - "replace text[144:145] --> decoded_text[164:171] '”' --> ' [UNK] '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.02109704641350211, - "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "[UNK] [UNK] [UNK] after your surgery, begin adding liquid protein during this [UNK] ( 20 to 30 grams per day ). [UNK] means you should buy a protein powder suggested by your dietitian, doctor or nurse. [UNK] recommend :", - "diff": [ - "replace text[0:11] --> decoded_text[0:17] 'On Day Four' --> '[UNK] [UNK] [UNK]'", - "replace text[72:77] --> decoded_text[78:83] 'Phase' --> '[UNK]'", - "insert text[79:79] --> decoded_text[85:86] '' --> ' '", - "insert text[101:101] --> decoded_text[108:109] '' --> ' '", - "replace text[104:105] --> decoded_text[112:129] 'T' --> '[UNK] means you s'", - "delete text[106:121] --> decoded_text[130:130] 'at means you sh' --> ''", - "replace text[193:195] --> decoded_text[202:207] 'We' --> '[UNK]'", - "insert text[205:205] --> decoded_text[217:218] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "[UNK] ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. [UNK]. com or 800 - 517 - 5111", - "diff": [ - "insert text[0:0] --> decoded_text[0:1] '' --> '['", - "replace text[1:6] --> decoded_text[2:5] 'njury' --> 'NK]'", - "insert text[8:8] --> decoded_text[7:8] '' --> ' '", - "insert text[50:50] --> decoded_text[50:51] '' --> ' '", - "insert text[64:64] --> decoded_text[65:66] '' --> ' '", - "insert text[95:95] --> decoded_text[97:99] '' --> ' ['", - "replace text[97:101] --> decoded_text[101:103] 'JURY' --> 'K]'", - "insert text[102:102] --> decoded_text[104:105] '' --> ' '", - "insert text[112:112] --> decoded_text[115:116] '' --> ' '", - "insert text[113:113] --> decoded_text[117:118] '' --> ' '", - "insert text[116:116] --> decoded_text[121:122] '' --> ' '", - "insert text[117:117] --> decoded_text[123:124] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "[UNK] for signs of dehydration!", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Watch' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "[UNK] [UNK] is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. [UNK] on [UNK], the home is being sold by high - end real estate firm [UNK] [UNK] s [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:14] --> decoded_text[0:11] 'Belmont Estate' --> '[UNK] [UNK]'", + "insert text[37:37] --> decoded_text[34:35] '' --> ' '", + "insert text[70:70] --> decoded_text[68:69] '' --> ' '", + "insert text[140:140] --> decoded_text[139:140] '' --> ' '", + "replace text[150:167] --> decoded_text[150:190] 'Listed on Thursda' --> '[UNK] on [UNK], the home is being sold b'", + "replace text[168:186] --> decoded_text[191:194] ', the home is bein' --> ' hi'", + "replace text[187:200] --> decoded_text[195:197] ' sold by high' --> 'h '", + "replace text[201:259] --> decoded_text[198:251] 'end real estate firm Sotheby’s International Realty Canada' --> ' end real estate firm [UNK] [UNK] s [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] [UNK] the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent [UNK] [UNK] of [UNK] [UNK] s tells [UNK].", + "diff": [ + "replace text[0:7] --> decoded_text[0:11] '“Within' --> '[UNK] [UNK]'", + "replace text[19:20] --> decoded_text[23:30] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[63:64] '' --> ' '", + "insert text[66:66] --> decoded_text[77:78] '' --> ' '", + "insert text[79:79] --> decoded_text[91:92] '' --> ' '", + "replace text[140:141] --> decoded_text[153:159] '”' --> ' [UNK]'", + "replace text[156:202] --> decoded_text[174:214] 'Christa Frosch of Sotheby’s tells BuzzBuzzNews' --> '[UNK] [UNK] of [UNK] [UNK] s tells [UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.054187192118226604, + "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "[UNK] three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. [UNK] to entertain, two main gallery halls can seat up to 100 guests. [UNK] [UNK] - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. [UNK] amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:12] 'The three' --> '[UNK] three '", + "insert text[10:10] --> decoded_text[13:14] '' --> ' '", + "replace text[92:97] --> decoded_text[96:101] 'Built' --> '[UNK]'", + "replace text[162:173] --> decoded_text[166:178] 'The Italian' --> '[UNK] [UNK] '", + "insert text[174:174] --> decoded_text[179:180] '' --> ' '", + "replace text[283:285] --> decoded_text[289:367] 'La' --> '[UNK] amenities include an indoor pool and sauna, a six - car garage and a pri'", + "replace text[286:339] --> decoded_text[368:384] 'ish amenities include an indoor pool and sauna, a six' --> 'ate entrance in '", + "replace text[340:381] --> decoded_text[385:396] 'car garage and a private entrance in-law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "[UNK] the property is a [UNK] - inspired garden with a variety of trees, plants and an orchard. [UNK] the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] 'Surrounding' --> '[UNK]'", + "replace text[30:40] --> decoded_text[24:30] 'Versailles' --> '[UNK] '", + "insert text[41:41] --> decoded_text[31:32] '' --> ' '", + "replace text[105:107] --> decoded_text[96:101] 'In' --> '[UNK]'", + "insert text[128:128] --> decoded_text[122:123] '' --> ' '", + "insert text[166:166] --> decoded_text[161:162] '' --> ' '", + "insert text[167:167] --> decoded_text[163:164] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "[UNK] to [UNK], the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:9] --> decoded_text[0:5] 'According' --> '[UNK]'", + "replace text[13:19] --> decoded_text[9:14] 'Frosch' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] [UNK] just went to the market yesterday, it [UNK] s private through [UNK] [UNK] s and we [UNK] ve already started to get calls, [UNK] says [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:11] '“We' --> '[UNK] [UNK]'", + "replace text[41:42] --> decoded_text[49:56] '’' --> ' [UNK] '", + "replace text[60:68] --> decoded_text[74:86] 'Sotheby’' --> '[UNK] [UNK] '", + "replace text[76:77] --> decoded_text[94:101] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[133:139] '”' --> ' [UNK]'", + "replace text[116:122] --> decoded_text[145:150] 'Frosch' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06504065040650407, + "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "[UNK] well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. [UNK] will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'Stay' --> '[UNK]'", + "replace text[18:19] --> decoded_text[19:26] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[64:65] '' --> ' '", + "replace text[80:83] --> decoded_text[88:93] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[94:103] 'calorie' --> ' calorie '", + "replace text[103:106] --> decoded_text[115:120] 'You' --> '[UNK]'", + "replace text[139:140] --> decoded_text[153:160] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[164:171] '”' --> ' [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.02109704641350211, + "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "[UNK] [UNK] [UNK] after your surgery, begin adding liquid protein during this [UNK] ( 20 to 30 grams per day ). [UNK] means you should buy a protein powder suggested by your dietitian, doctor or nurse. [UNK] recommend :", + "diff": [ + "replace text[0:11] --> decoded_text[0:17] 'On Day Four' --> '[UNK] [UNK] [UNK]'", + "replace text[72:77] --> decoded_text[78:83] 'Phase' --> '[UNK]'", + "insert text[79:79] --> decoded_text[85:86] '' --> ' '", + "insert text[101:101] --> decoded_text[108:109] '' --> ' '", + "replace text[104:105] --> decoded_text[112:129] 'T' --> '[UNK] means you s'", + "delete text[106:121] --> decoded_text[130:130] 'at means you sh' --> ''", + "replace text[193:195] --> decoded_text[202:207] 'We' --> '[UNK]'", + "insert text[205:205] --> decoded_text[217:218] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "[UNK] ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. [UNK]. com or 800 - 517 - 5111", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> '['", + "replace text[1:6] --> decoded_text[2:5] 'njury' --> 'NK]'", + "insert text[8:8] --> decoded_text[7:8] '' --> ' '", + "insert text[50:50] --> decoded_text[50:51] '' --> ' '", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "insert text[95:95] --> decoded_text[97:99] '' --> ' ['", + "replace text[97:101] --> decoded_text[101:103] 'JURY' --> 'K]'", + "insert text[102:102] --> decoded_text[104:105] '' --> ' '", + "insert text[112:112] --> decoded_text[115:116] '' --> ' '", + "insert text[113:113] --> decoded_text[117:118] '' --> ' '", + "insert text[116:116] --> decoded_text[121:122] '' --> ' '", + "insert text[117:117] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "[UNK] for signs of dehydration!", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Watch' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json index 7c47595c6d887d36c54cc45c0c7c1088289d2127..ce21c591efd5f06a83f153d0de2ded92e9abddde 100644 --- a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json @@ -1,125 +1,125 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" [UNK] trata de un trabajo de cerca de seis meses. paciente, articulado, contra la [UNK] criminal \" [UNK] [UNK] del [UNK] [UNK] \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de drogas. \", [UNK] [UNK].", - "diff": [ - "replace text[1:3] --> decoded_text[1:7] 'Se' --> ' [UNK]'", - "replace text[80:82] --> decoded_text[84:188] 'or' --> '[UNK] criminal \" [UNK] [UNK] del [UNK] [UNK] \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de dro'", - "delete text[84:204] --> decoded_text[190:190] 'nización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de droga' --> ''", - "replace text[206:223] --> decoded_text[192:207] '\", explicó Medina' --> ' \", [UNK] [UNK]'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "[UNK] el momento se han detenido a 48 integrantes de la [UNK] criminal.", - "diff": [ - "replace text[0:5] --> decoded_text[0:5] 'Hasta' --> '[UNK]'", - "replace text[56:68] --> decoded_text[56:61] 'organización' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "[UNK] \" [UNK] [UNK] del [UNK] [UNK] \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] 'A' --> '[UNK]'", - "replace text[3:35] --> decoded_text[7:36] 'Los Sanguinarios del Norte Chico' --> ' [UNK] [UNK] del [UNK] [UNK] '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "[UNK] este megaoperativo han participado 800 agentes de la [UNK] [UNK] del [UNK] y 85 fiscales, quienes se han desplazado en 130 [UNK]. [UNK], e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'En' --> '[UNK]'", - "replace text[56:63] --> decoded_text[59:64] 'Policia' --> '[UNK]'", - "insert text[64:64] --> decoded_text[65:67] '' --> '[U'", - "replace text[65:72] --> decoded_text[68:70] 'acional' --> 'K]'", - "replace text[77:81] --> decoded_text[75:80] 'Peru' --> '[UNK]'", - "replace text[130:139] --> decoded_text[129:134] 'vehículos' --> '[UNK]'", - "replace text[141:149] --> decoded_text[136:141] 'Asimismo' --> '[UNK]'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. [UNK] [UNK] de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:5] --> decoded_text[3:8] 'El' --> '[UNK]'", - "replace text[6:13] --> decoded_text[9:14] 'período' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "[UNK] [UNK]. 2, [UNK] 4 / 1983, de 29 de junio, de [UNK] de la jornada", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "replace text[2:5] --> decoded_text[6:11] 'Art' --> '[UNK]'", - "replace text[10:13] --> decoded_text[16:21] 'Ley' --> '[UNK]'", - "insert text[15:15] --> decoded_text[23:24] '' --> ' '", - "insert text[16:16] --> decoded_text[25:26] '' --> ' '", - "replace text[41:49] --> decoded_text[51:56] 'fijación' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.06349206349206349, - "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. [UNK] [UNK] o [UNK] de su disfrute se [UNK] de [UNK]", - "diff": [ - "replace text[3:5] --> decoded_text[3:8] 'El' --> '[UNK]'", - "replace text[6:13] --> decoded_text[9:14] 'período' --> '[UNK]'", - "replace text[16:24] --> decoded_text[17:22] 'períodos' --> '[UNK]'", - "replace text[43:49] --> decoded_text[41:46] 'fijará' --> '[UNK]'", - "replace text[53:58] --> decoded_text[50:55] 'común' --> '[UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los [UNK] [UNK]", - "diff": [ - "replace text[37:46] --> decoded_text[37:42] 'Convenios' --> '[UNK]'", - "replace text[47:57] --> decoded_text[43:48] 'Colectivos' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre [UNK] anual de las vacaciones.", - "diff": [ - "replace text[6:19] --> decoded_text[6:11] 'planificación' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "[UNK] caso de desacuerdo entre las partes, la [UNK] competente", - "diff": [ - "replace text[0:2] --> decoded_text[0:5] 'En' --> '[UNK]'", - "replace text[43:55] --> decoded_text[46:51] 'jurisdicción' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" [UNK] trata de un trabajo de cerca de seis meses. paciente, articulado, contra la [UNK] criminal \" [UNK] [UNK] del [UNK] [UNK] \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de drogas. \", [UNK] [UNK].", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] 'Se' --> ' [UNK]'", + "replace text[80:82] --> decoded_text[84:188] 'or' --> '[UNK] criminal \" [UNK] [UNK] del [UNK] [UNK] \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de dro'", + "delete text[84:204] --> decoded_text[190:190] 'nización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de droga' --> ''", + "replace text[206:223] --> decoded_text[192:207] '\", explicó Medina' --> ' \", [UNK] [UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "[UNK] el momento se han detenido a 48 integrantes de la [UNK] criminal.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Hasta' --> '[UNK]'", + "replace text[56:68] --> decoded_text[56:61] 'organización' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "[UNK] \" [UNK] [UNK] del [UNK] [UNK] \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] 'A' --> '[UNK]'", + "replace text[3:35] --> decoded_text[7:36] 'Los Sanguinarios del Norte Chico' --> ' [UNK] [UNK] del [UNK] [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "[UNK] este megaoperativo han participado 800 agentes de la [UNK] [UNK] del [UNK] y 85 fiscales, quienes se han desplazado en 130 [UNK]. [UNK], e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'En' --> '[UNK]'", + "replace text[56:63] --> decoded_text[59:64] 'Policia' --> '[UNK]'", + "insert text[64:64] --> decoded_text[65:67] '' --> '[U'", + "replace text[65:72] --> decoded_text[68:70] 'acional' --> 'K]'", + "replace text[77:81] --> decoded_text[75:80] 'Peru' --> '[UNK]'", + "replace text[130:139] --> decoded_text[129:134] 'vehículos' --> '[UNK]'", + "replace text[141:149] --> decoded_text[136:141] 'Asimismo' --> '[UNK]'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. [UNK] [UNK] de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:5] --> decoded_text[3:8] 'El' --> '[UNK]'", + "replace text[6:13] --> decoded_text[9:14] 'período' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] [UNK]. 2, [UNK] 4 / 1983, de 29 de junio, de [UNK] de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:5] --> decoded_text[6:11] 'Art' --> '[UNK]'", + "replace text[10:13] --> decoded_text[16:21] 'Ley' --> '[UNK]'", + "insert text[15:15] --> decoded_text[23:24] '' --> ' '", + "insert text[16:16] --> decoded_text[25:26] '' --> ' '", + "replace text[41:49] --> decoded_text[51:56] 'fijación' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. [UNK] [UNK] o [UNK] de su disfrute se [UNK] de [UNK]", + "diff": [ + "replace text[3:5] --> decoded_text[3:8] 'El' --> '[UNK]'", + "replace text[6:13] --> decoded_text[9:14] 'período' --> '[UNK]'", + "replace text[16:24] --> decoded_text[17:22] 'períodos' --> '[UNK]'", + "replace text[43:49] --> decoded_text[41:46] 'fijará' --> '[UNK]'", + "replace text[53:58] --> decoded_text[50:55] 'común' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los [UNK] [UNK]", + "diff": [ + "replace text[37:46] --> decoded_text[37:42] 'Convenios' --> '[UNK]'", + "replace text[47:57] --> decoded_text[43:48] 'Colectivos' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre [UNK] anual de las vacaciones.", + "diff": [ + "replace text[6:19] --> decoded_text[6:11] 'planificación' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "[UNK] caso de desacuerdo entre las partes, la [UNK] competente", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'En' --> '[UNK]'", + "replace text[43:55] --> decoded_text[46:51] 'jurisdicción' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json index 1d9a9a666136ef33dbf380eec7018449e43e6216..ed08c5285b929cd14bfb8c7aee231aac14711c20 100644 --- a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json @@ -1,139 +1,139 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "[UNK], comme je ne suis pas le seul [UNK] avoir [UNK] de [UNK] ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", - "diff": [ - "replace text[0:3] --> decoded_text[0:5] 'Bon' --> '[UNK]'", - "replace text[34:35] --> decoded_text[36:41] 'à' --> '[UNK]'", - "replace text[42:50] --> decoded_text[48:53] 'envisagé' --> '[UNK]'", - "replace text[54:59] --> decoded_text[57:62] 'créer' --> '[UNK]'", - "replace text[91:96] --> decoded_text[94:99] 'était' --> '[UNK]'", - "replace text[102:106] --> decoded_text[105:110] 'être' --> '[UNK]'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "[UNK] dites ce que vous voulez, faut justes des infos autour desquelles on [UNK].", - "diff": [ - "replace text[0:4] --> decoded_text[0:5] 'Vous' --> '[UNK]'", - "replace text[74:84] --> decoded_text[75:80] 'réfléchira' --> '[UNK]'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "[UNK] une fois, vous n'etes pas [UNK] de vous [UNK] [UNK]", - "diff": [ - "replace text[0:6] --> decoded_text[0:5] 'Encore' --> '[UNK]'", - "replace text[33:39] --> decoded_text[32:37] 'obligé' --> '[UNK]'", - "replace text[48:56] --> decoded_text[46:51] 'dévoilez' --> '[UNK]'", - "replace text[57:68] --> decoded_text[52:57] 'entièrement' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- [UNK] peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de [UNK], par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la [UNK]? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", - "replace text[117:124] --> decoded_text[120:125] 'mémoire' --> '[UNK]'", - "insert text[159:159] --> decoded_text[160:161] '' --> ' '", - "replace text[176:194] --> decoded_text[178:197] 'ça dans la soirée ' --> '[UNK] dans la [UNK]'", - "insert text[195:195] --> decoded_text[198:199] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- [UNK] peux penser une chose et son contraire. [UNK] exemple, quand ma [UNK] dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", - "diff": [ - "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", - "replace text[45:48] --> decoded_text[48:53] 'Par' --> '[UNK]'", - "replace text[67:71] --> decoded_text[72:77] 'mère' --> '[UNK]'", - "replace text[224:225] --> decoded_text[230:235] 'à' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- [UNK] penses et [UNK] tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. [UNK], quand j'attends mes soeurs et ma [UNK] devant un magasin, je [UNK] [UNK] la [UNK] du monde.", - "diff": [ - "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", - "replace text[15:24] --> decoded_text[18:23] 'réfléchit' --> '[UNK]'", - "replace text[63:64] --> decoded_text[62:67] 'à' --> '[UNK]'", - "replace text[90:97] --> decoded_text[93:98] 'Exemple' --> '[UNK]'", - "replace text[132:136] --> decoded_text[133:138] 'mère' --> '[UNK]'", - "replace text[159:168] --> decoded_text[161:166] 'réfléchit' --> '[UNK]'", - "replace text[169:170] --> decoded_text[167:172] 'à' --> '[UNK]'", - "replace text[174:182] --> decoded_text[176:181] 'création' --> '[UNK]'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- [UNK] suis arrogant avec ma famille, mais faible avec mes \" amis \" du [UNK], et ait tendance [UNK] [UNK] ceux que je connais par [UNK] ou ailleurs qu'au [UNK]", - "diff": [ - "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", - "insert text[58:58] --> decoded_text[61:62] '' --> ' '", - "insert text[62:62] --> decoded_text[66:67] '' --> ' '", - "replace text[67:72] --> decoded_text[72:77] 'lycée' --> '[UNK]'", - "replace text[90:91] --> decoded_text[95:100] 'à' --> '[UNK]'", - "replace text[92:100] --> decoded_text[101:106] 'preférer' --> '[UNK]'", - "replace text[125:133] --> decoded_text[131:136] 'Internet' --> '[UNK]'", - "replace text[152:157] --> decoded_text[155:160] 'lycée' --> '[UNK]'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- [UNK] dois [UNK] mentalement instable, par moments", - "diff": [ - "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", - "replace text[10:14] --> decoded_text[13:18] 'être' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- [UNK] n'envoie que [UNK] peu de sms et n'appelle personne", - "diff": [ - "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", - "replace text[18:22] --> decoded_text[21:26] 'très' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- [UNK]'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de [UNK] de [UNK], et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:7] 'J' --> '[UNK]'", - "replace text[16:17] --> decoded_text[20:25] 'à' --> '[UNK]'", - "insert text[43:43] --> decoded_text[51:52] '' --> ' '", - "insert text[50:50] --> decoded_text[59:60] '' --> ' '", - "replace text[95:104] --> decoded_text[105:110] 'capacités' --> '[UNK]'", - "replace text[108:118] --> decoded_text[114:119] 'réflexions' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "[UNK], comme je ne suis pas le seul [UNK] avoir [UNK] de [UNK] ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'Bon' --> '[UNK]'", + "replace text[34:35] --> decoded_text[36:41] 'à' --> '[UNK]'", + "replace text[42:50] --> decoded_text[48:53] 'envisagé' --> '[UNK]'", + "replace text[54:59] --> decoded_text[57:62] 'créer' --> '[UNK]'", + "replace text[91:96] --> decoded_text[94:99] 'était' --> '[UNK]'", + "replace text[102:106] --> decoded_text[105:110] 'être' --> '[UNK]'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "[UNK] dites ce que vous voulez, faut justes des infos autour desquelles on [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'Vous' --> '[UNK]'", + "replace text[74:84] --> decoded_text[75:80] 'réfléchira' --> '[UNK]'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "[UNK] une fois, vous n'etes pas [UNK] de vous [UNK] [UNK]", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] 'Encore' --> '[UNK]'", + "replace text[33:39] --> decoded_text[32:37] 'obligé' --> '[UNK]'", + "replace text[48:56] --> decoded_text[46:51] 'dévoilez' --> '[UNK]'", + "replace text[57:68] --> decoded_text[52:57] 'entièrement' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- [UNK] peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de [UNK], par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la [UNK]? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[117:124] --> decoded_text[120:125] 'mémoire' --> '[UNK]'", + "insert text[159:159] --> decoded_text[160:161] '' --> ' '", + "replace text[176:194] --> decoded_text[178:197] 'ça dans la soirée ' --> '[UNK] dans la [UNK]'", + "insert text[195:195] --> decoded_text[198:199] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- [UNK] peux penser une chose et son contraire. [UNK] exemple, quand ma [UNK] dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[45:48] --> decoded_text[48:53] 'Par' --> '[UNK]'", + "replace text[67:71] --> decoded_text[72:77] 'mère' --> '[UNK]'", + "replace text[224:225] --> decoded_text[230:235] 'à' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- [UNK] penses et [UNK] tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. [UNK], quand j'attends mes soeurs et ma [UNK] devant un magasin, je [UNK] [UNK] la [UNK] du monde.", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[15:24] --> decoded_text[18:23] 'réfléchit' --> '[UNK]'", + "replace text[63:64] --> decoded_text[62:67] 'à' --> '[UNK]'", + "replace text[90:97] --> decoded_text[93:98] 'Exemple' --> '[UNK]'", + "replace text[132:136] --> decoded_text[133:138] 'mère' --> '[UNK]'", + "replace text[159:168] --> decoded_text[161:166] 'réfléchit' --> '[UNK]'", + "replace text[169:170] --> decoded_text[167:172] 'à' --> '[UNK]'", + "replace text[174:182] --> decoded_text[176:181] 'création' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- [UNK] suis arrogant avec ma famille, mais faible avec mes \" amis \" du [UNK], et ait tendance [UNK] [UNK] ceux que je connais par [UNK] ou ailleurs qu'au [UNK]", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "insert text[58:58] --> decoded_text[61:62] '' --> ' '", + "insert text[62:62] --> decoded_text[66:67] '' --> ' '", + "replace text[67:72] --> decoded_text[72:77] 'lycée' --> '[UNK]'", + "replace text[90:91] --> decoded_text[95:100] 'à' --> '[UNK]'", + "replace text[92:100] --> decoded_text[101:106] 'preférer' --> '[UNK]'", + "replace text[125:133] --> decoded_text[131:136] 'Internet' --> '[UNK]'", + "replace text[152:157] --> decoded_text[155:160] 'lycée' --> '[UNK]'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- [UNK] dois [UNK] mentalement instable, par moments", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[10:14] --> decoded_text[13:18] 'être' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- [UNK] n'envoie que [UNK] peu de sms et n'appelle personne", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[18:22] --> decoded_text[21:26] 'très' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- [UNK]'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de [UNK] de [UNK], et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:7] 'J' --> '[UNK]'", + "replace text[16:17] --> decoded_text[20:25] 'à' --> '[UNK]'", + "insert text[43:43] --> decoded_text[51:52] '' --> ' '", + "insert text[50:50] --> decoded_text[59:60] '' --> ' '", + "replace text[95:104] --> decoded_text[105:110] 'capacités' --> '[UNK]'", + "replace text[108:118] --> decoded_text[114:119] 'réflexions' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json index 49b7b3211acd8b58d93487620f012c012f8cc783..93f3795d2b0a8e31620ae2311e226d7be7ddd42f 100644 --- a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json @@ -1,1110 +1,1110 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 [UNK] 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[26:26] --> decoded_text[37:38] '' --> ' '", - "insert text[29:29] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[43:44] '' --> ' '", - "insert text[31:31] --> decoded_text[45:46] '' --> ' '", - "insert text[32:32] --> decoded_text[47:48] '' --> ' '", - "insert text[33:33] --> decoded_text[49:50] '' --> ' '", - "insert text[34:34] --> decoded_text[51:52] '' --> ' '", - "insert text[35:35] --> decoded_text[53:54] '' --> ' '", - "insert text[36:36] --> decoded_text[55:56] '' --> ' '", - "insert text[37:37] --> decoded_text[57:58] '' --> ' '", - "insert text[41:41] --> decoded_text[62:63] '' --> ' '", - "insert text[42:42] --> decoded_text[64:65] '' --> ' '", - "insert text[43:43] --> decoded_text[66:67] '' --> ' '", - "insert text[44:44] --> decoded_text[68:69] '' --> ' '", - "insert text[45:45] --> decoded_text[70:71] '' --> ' '", - "insert text[46:46] --> decoded_text[72:73] '' --> ' '", - "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", - "insert text[49:49] --> decoded_text[78:79] '' --> ' '", - "insert text[50:50] --> decoded_text[80:81] '' --> ' '", - "insert text[51:51] --> decoded_text[82:83] '' --> ' '", - "insert text[52:52] --> decoded_text[84:85] '' --> ' '", - "insert text[53:53] --> decoded_text[86:87] '' --> ' '", - "insert text[54:54] --> decoded_text[88:89] '' --> ' '", - "insert text[55:55] --> decoded_text[90:91] '' --> ' '", - "insert text[56:56] --> decoded_text[92:93] '' --> ' '", - "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", - "insert text[59:59] --> decoded_text[98:99] '' --> ' '", - "insert text[60:60] --> decoded_text[100:101] '' --> ' '", - "insert text[61:61] --> decoded_text[102:103] '' --> ' '", - "insert text[62:62] --> decoded_text[104:105] '' --> ' '", - "insert text[63:63] --> decoded_text[106:107] '' --> ' '", - "insert text[64:64] --> decoded_text[108:109] '' --> ' '", - "insert text[65:65] --> decoded_text[110:111] '' --> ' '", - "insert text[66:66] --> decoded_text[112:113] '' --> ' '", - "insert text[67:67] --> decoded_text[114:115] '' --> ' '", - "insert text[68:68] --> decoded_text[116:117] '' --> ' '", - "insert text[69:69] --> decoded_text[118:119] '' --> ' '", - "insert text[70:70] --> decoded_text[120:121] '' --> ' '", - "insert text[71:71] --> decoded_text[122:123] '' --> ' '", - "insert text[72:72] --> decoded_text[124:125] '' --> ' '", - "insert text[73:73] --> decoded_text[126:127] '' --> ' '", - "insert text[74:74] --> decoded_text[128:129] '' --> ' '", - "insert text[75:75] --> decoded_text[130:131] '' --> ' '", - "insert text[76:76] --> decoded_text[132:133] '' --> ' '", - "insert text[77:77] --> decoded_text[134:135] '' --> ' '", - "insert text[78:78] --> decoded_text[136:137] '' --> ' '", - "insert text[79:79] --> decoded_text[138:139] '' --> ' '", - "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", - "insert text[82:82] --> decoded_text[144:145] '' --> ' '", - "insert text[83:83] --> decoded_text[146:147] '' --> ' '", - "insert text[84:84] --> decoded_text[148:149] '' --> ' '", - "insert text[85:85] --> decoded_text[150:151] '' --> ' '", - "insert text[86:86] --> decoded_text[152:153] '' --> ' '", - "insert text[87:87] --> decoded_text[154:155] '' --> ' '", - "insert text[88:88] --> decoded_text[156:157] '' --> ' '", - "insert text[89:89] --> decoded_text[158:159] '' --> ' '", - "insert text[90:90] --> decoded_text[160:161] '' --> ' '", - "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", - "insert text[93:93] --> decoded_text[166:167] '' --> ' '", - "insert text[94:94] --> decoded_text[168:169] '' --> ' '", - "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", - "insert text[97:97] --> decoded_text[174:175] '' --> ' '", - "insert text[98:98] --> decoded_text[176:177] '' --> ' '", - "insert text[99:99] --> decoded_text[178:179] '' --> ' '", - "insert text[100:100] --> decoded_text[180:181] '' --> ' '", - "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", - "insert text[103:103] --> decoded_text[186:187] '' --> ' '", - "insert text[104:104] --> decoded_text[188:189] '' --> ' '", - "insert text[105:105] --> decoded_text[190:191] '' --> ' '", - "insert text[106:106] --> decoded_text[192:193] '' --> ' '", - "insert text[107:107] --> decoded_text[194:195] '' --> ' '", - "insert text[108:108] --> decoded_text[196:197] '' --> ' '", - "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", - "insert text[111:111] --> decoded_text[202:203] '' --> ' '", - "insert text[112:112] --> decoded_text[204:205] '' --> ' '", - "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", - "insert text[115:115] --> decoded_text[210:211] '' --> ' '", - "insert text[116:116] --> decoded_text[212:213] '' --> ' '", - "insert text[117:117] --> decoded_text[214:215] '' --> ' '", - "insert text[118:118] --> decoded_text[216:217] '' --> ' '", - "insert text[119:119] --> decoded_text[218:219] '' --> ' '", - "insert text[120:120] --> decoded_text[220:221] '' --> ' '", - "insert text[121:121] --> decoded_text[222:223] '' --> ' '", - "insert text[122:122] --> decoded_text[224:225] '' --> ' '", - "insert text[123:123] --> decoded_text[226:227] '' --> ' '", - "insert text[124:124] --> decoded_text[228:229] '' --> ' '", - "insert text[125:125] --> decoded_text[230:231] '' --> ' '", - "insert text[126:126] --> decoded_text[232:233] '' --> ' '", - "insert text[127:127] --> decoded_text[234:235] '' --> ' '", - "insert text[128:128] --> decoded_text[236:237] '' --> ' '", - "insert text[129:129] --> decoded_text[238:239] '' --> ' '", - "replace text[130:133] --> decoded_text[240:249] '车4S' --> ' 车 [UNK] '", - "insert text[134:134] --> decoded_text[250:251] '' --> ' '", - "insert text[135:135] --> decoded_text[252:253] '' --> ' '", - "replace text[136:137] --> decoded_text[254:257] ',' --> ' , '", - "insert text[138:138] --> decoded_text[258:259] '' --> ' '", - "insert text[139:139] --> decoded_text[260:261] '' --> ' '", - "insert text[140:140] --> decoded_text[262:263] '' --> ' '", - "replace text[141:142] --> decoded_text[264:267] '车' --> ' 车 '", - "insert text[143:143] --> decoded_text[268:269] '' --> ' '", - "insert text[144:144] --> decoded_text[270:271] '' --> ' '", - "replace text[145:146] --> decoded_text[272:275] '车' --> ' 车 '", - "insert text[147:147] --> decoded_text[276:277] '' --> ' '", - "replace text[148:149] --> decoded_text[278:281] ',' --> ' , '", - "insert text[150:150] --> decoded_text[282:283] '' --> ' '", - "insert text[151:151] --> decoded_text[284:285] '' --> ' '", - "insert text[152:152] --> decoded_text[286:287] '' --> ' '", - "replace text[153:154] --> decoded_text[288:291] '车' --> ' 车 '", - "insert text[155:155] --> decoded_text[292:293] '' --> ' '", - "insert text[156:156] --> decoded_text[294:295] '' --> ' '", - "insert text[157:157] --> decoded_text[296:297] '' --> ' '", - "insert text[158:158] --> decoded_text[298:299] '' --> ' '", - "insert text[159:159] --> decoded_text[300:301] '' --> ' '", - "insert text[163:163] --> decoded_text[305:306] '' --> ' '", - "insert text[164:164] --> decoded_text[307:308] '' --> ' '", - "insert text[165:165] --> decoded_text[309:310] '' --> ' '", - "insert text[166:166] --> decoded_text[311:312] '' --> ' '", - "insert text[167:167] --> decoded_text[313:314] '' --> ' '", - "replace text[168:169] --> decoded_text[315:318] ',' --> ' , '", - "insert text[170:170] --> decoded_text[319:320] '' --> ' '", - "replace text[171:173] --> decoded_text[321:326] '的车' --> ' 的 车 '", - "insert text[174:174] --> decoded_text[327:328] '' --> ' '", - "insert text[175:175] --> decoded_text[329:330] '' --> ' '", - "insert text[176:176] --> decoded_text[331:332] '' --> ' '", - "insert text[177:177] --> decoded_text[333:334] '' --> ' '", - "insert text[178:178] --> decoded_text[335:336] '' --> ' '", - "insert text[179:179] --> decoded_text[337:338] '' --> ' '", - "insert text[180:180] --> decoded_text[339:340] '' --> ' '", - "insert text[181:181] --> decoded_text[341:342] '' --> ' '", - "insert text[182:182] --> decoded_text[343:344] '' --> ' '", - "replace text[183:184] --> decoded_text[345:348] ',' --> ' , '", - "insert text[185:185] --> decoded_text[349:350] '' --> ' '", - "insert text[186:186] --> decoded_text[351:352] '' --> ' '", - "insert text[187:187] --> decoded_text[353:354] '' --> ' '", - "insert text[188:188] --> decoded_text[355:356] '' --> ' '", - "replace text[189:190] --> decoded_text[357:360] '的' --> ' 的 '", - "insert text[191:191] --> decoded_text[361:362] '' --> ' '", - "insert text[192:192] --> decoded_text[363:364] '' --> ' '", - "insert text[193:193] --> decoded_text[365:366] '' --> ' '", - "insert text[194:194] --> decoded_text[367:368] '' --> ' '", - "insert text[195:195] --> decoded_text[369:370] '' --> ' '", - "insert text[196:196] --> decoded_text[371:372] '' --> ' '", - "insert text[206:206] --> decoded_text[382:383] '' --> ' '", - "insert text[207:207] --> decoded_text[384:385] '' --> ' '", - "insert text[211:211] --> decoded_text[389:390] '' --> ' '", - "insert text[212:212] --> decoded_text[391:392] '' --> ' '", - "insert text[213:213] --> decoded_text[393:394] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004672897196261682, - "oov_charset": "[\"S\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '", - "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "insert text[91:91] --> decoded_text[181:182] '' --> ' '", - "insert text[92:92] --> decoded_text[183:184] '' --> ' '", - "insert text[93:93] --> decoded_text[185:186] '' --> ' '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", - "insert text[101:101] --> decoded_text[201:202] '' --> ' '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "insert text[107:107] --> decoded_text[213:214] '' --> ' '", - "insert text[108:108] --> decoded_text[215:216] '' --> ' '", - "insert text[109:109] --> decoded_text[217:218] '' --> ' '", - "insert text[110:110] --> decoded_text[219:220] '' --> ' '", - "insert text[111:111] --> decoded_text[221:222] '' --> ' '", - "insert text[112:112] --> decoded_text[223:224] '' --> ' '", - "insert text[113:113] --> decoded_text[225:226] '' --> ' '", - "insert text[114:114] --> decoded_text[227:228] '' --> ' '", - "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", - "insert text[117:117] --> decoded_text[233:234] '' --> ' '", - "insert text[118:118] --> decoded_text[235:236] '' --> ' '", - "insert text[119:119] --> decoded_text[237:238] '' --> ' '", - "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", - "insert text[122:122] --> decoded_text[243:244] '' --> ' '", - "insert text[123:123] --> decoded_text[245:246] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "insert text[50:50] --> decoded_text[96:97] '' --> ' '", - "insert text[51:51] --> decoded_text[98:99] '' --> ' '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "insert text[61:61] --> decoded_text[118:119] '' --> ' '", - "insert text[62:62] --> decoded_text[120:121] '' --> ' '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "insert text[70:70] --> decoded_text[136:137] '' --> ' '", - "insert text[71:71] --> decoded_text[138:139] '' --> ' '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( [UNK] ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( [UNK] ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 [UNK] 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 [UNK] 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "insert text[5:5] --> decoded_text[8:9] '' --> ' '", - "insert text[6:6] --> decoded_text[10:11] '' --> ' '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "insert text[9:9] --> decoded_text[16:17] '' --> ' '", - "insert text[10:10] --> decoded_text[18:19] '' --> ' '", - "insert text[11:11] --> decoded_text[20:21] '' --> ' '", - "insert text[12:12] --> decoded_text[22:23] '' --> ' '", - "insert text[13:13] --> decoded_text[24:25] '' --> ' '", - "insert text[14:14] --> decoded_text[26:27] '' --> ' '", - "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", - "insert text[17:17] --> decoded_text[32:33] '' --> ' '", - "insert text[18:18] --> decoded_text[34:35] '' --> ' '", - "insert text[19:19] --> decoded_text[36:37] '' --> ' '", - "insert text[20:20] --> decoded_text[38:39] '' --> ' '", - "insert text[21:21] --> decoded_text[40:41] '' --> ' '", - "insert text[22:22] --> decoded_text[42:43] '' --> ' '", - "insert text[23:23] --> decoded_text[44:45] '' --> ' '", - "insert text[24:24] --> decoded_text[46:47] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[32:32] --> decoded_text[61:62] '' --> ' '", - "insert text[33:33] --> decoded_text[63:64] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "replace text[62:72] --> decoded_text[121:128] 'RingoStarr' --> ' [UNK] '", - "insert text[73:73] --> decoded_text[129:130] '' --> ' '", - "insert text[74:74] --> decoded_text[131:132] '' --> ' '", - "insert text[75:75] --> decoded_text[133:134] '' --> ' '", - "insert text[76:76] --> decoded_text[135:136] '' --> ' '", - "insert text[77:77] --> decoded_text[137:138] '' --> ' '", - "insert text[78:78] --> decoded_text[139:140] '' --> ' '", - "insert text[79:79] --> decoded_text[141:142] '' --> ' '", - "replace text[80:81] --> decoded_text[143:146] ',' --> ' , '", - "insert text[82:82] --> decoded_text[147:148] '' --> ' '", - "insert text[83:83] --> decoded_text[149:150] '' --> ' '", - "insert text[84:84] --> decoded_text[151:152] '' --> ' '", - "insert text[85:85] --> decoded_text[153:154] '' --> ' '", - "insert text[86:86] --> decoded_text[155:156] '' --> ' '", - "insert text[87:87] --> decoded_text[157:158] '' --> ' '", - "insert text[88:88] --> decoded_text[159:160] '' --> ' '", - "insert text[89:89] --> decoded_text[161:162] '' --> ' '", - "insert text[90:90] --> decoded_text[163:164] '' --> ' '", - "insert text[91:91] --> decoded_text[165:166] '' --> ' '", - "insert text[92:92] --> decoded_text[167:168] '' --> ' '", - "insert text[93:93] --> decoded_text[169:170] '' --> ' '", - "replace text[94:95] --> decoded_text[171:174] ',' --> ' , '", - "insert text[96:96] --> decoded_text[175:176] '' --> ' '", - "insert text[97:97] --> decoded_text[177:178] '' --> ' '", - "insert text[98:98] --> decoded_text[179:180] '' --> ' '", - "insert text[99:99] --> decoded_text[181:182] '' --> ' '", - "insert text[100:100] --> decoded_text[183:184] '' --> ' '", - "insert text[101:101] --> decoded_text[185:186] '' --> ' '", - "insert text[102:102] --> decoded_text[187:188] '' --> ' '", - "insert text[103:103] --> decoded_text[189:190] '' --> ' '", - "insert text[104:104] --> decoded_text[191:192] '' --> ' '", - "insert text[105:105] --> decoded_text[193:194] '' --> ' '", - "insert text[106:106] --> decoded_text[195:196] '' --> ' '", - "insert text[107:107] --> decoded_text[197:198] '' --> ' '", - "insert text[108:108] --> decoded_text[199:200] '' --> ' '", - "insert text[109:109] --> decoded_text[201:202] '' --> ' '", - "insert text[110:110] --> decoded_text[203:204] '' --> ' '", - "insert text[111:111] --> decoded_text[205:206] '' --> ' '", - "replace text[112:124] --> decoded_text[207:214] 'JuliaRoberts' --> ' [UNK] '", - "insert text[125:125] --> decoded_text[215:216] '' --> ' '", - "insert text[126:126] --> decoded_text[217:218] '' --> ' '", - "insert text[127:127] --> decoded_text[219:220] '' --> ' '", - "insert text[128:128] --> decoded_text[221:222] '' --> ' '", - "insert text[129:129] --> decoded_text[223:224] '' --> ' '", - "insert text[130:130] --> decoded_text[225:226] '' --> ' '", - "insert text[131:131] --> decoded_text[227:228] '' --> ' '", - "insert text[132:132] --> decoded_text[229:230] '' --> ' '", - "replace text[133:134] --> decoded_text[231:234] ',' --> ' , '", - "insert text[135:135] --> decoded_text[235:236] '' --> ' '", - "insert text[136:136] --> decoded_text[237:238] '' --> ' '", - "insert text[137:137] --> decoded_text[239:240] '' --> ' '", - "insert text[138:138] --> decoded_text[241:242] '' --> ' '", - "insert text[139:139] --> decoded_text[243:244] '' --> ' '", - "insert text[140:140] --> decoded_text[245:246] '' --> ' '", - "insert text[141:141] --> decoded_text[247:248] '' --> ' '", - "insert text[142:142] --> decoded_text[249:250] '' --> ' '", - "insert text[143:143] --> decoded_text[251:252] '' --> ' '", - "insert text[144:144] --> decoded_text[253:254] '' --> ' '", - "replace text[145:146] --> decoded_text[255:258] ',' --> ' , '", - "insert text[147:147] --> decoded_text[259:260] '' --> ' '", - "insert text[148:148] --> decoded_text[261:262] '' --> ' '", - "insert text[149:149] --> decoded_text[263:264] '' --> ' '", - "insert text[150:150] --> decoded_text[265:266] '' --> ' '", - "insert text[151:151] --> decoded_text[267:268] '' --> ' '", - "replace text[152:162] --> decoded_text[269:276] 'QueenieEye' --> ' [UNK] '", - "replace text[163:164] --> decoded_text[277:280] ',' --> ' , '", - "insert text[165:165] --> decoded_text[281:282] '' --> ' '", - "insert text[166:166] --> decoded_text[283:284] '' --> ' '", - "insert text[167:167] --> decoded_text[285:286] '' --> ' '", - "insert text[168:168] --> decoded_text[287:288] '' --> ' '", - "insert text[169:169] --> decoded_text[289:290] '' --> ' '", - "insert text[170:170] --> decoded_text[291:292] '' --> ' '", - "insert text[171:171] --> decoded_text[293:294] '' --> ' '", - "insert text[172:172] --> decoded_text[295:296] '' --> ' '", - "insert text[173:173] --> decoded_text[297:298] '' --> ' '", - "insert text[174:174] --> decoded_text[299:300] '' --> ' '", - "replace text[175:185] --> decoded_text[301:308] 'Photograph' --> ' [UNK] '", - "replace text[186:187] --> decoded_text[309:312] ',' --> ' , '", - "insert text[188:188] --> decoded_text[313:314] '' --> ' '", - "insert text[189:189] --> decoded_text[315:316] '' --> ' '", - "insert text[190:190] --> decoded_text[317:318] '' --> ' '", - "insert text[191:191] --> decoded_text[319:320] '' --> ' '", - "insert text[192:192] --> decoded_text[321:322] '' --> ' '", - "insert text[193:193] --> decoded_text[323:324] '' --> ' '", - "insert text[194:194] --> decoded_text[325:326] '' --> ' '", - "insert text[195:195] --> decoded_text[327:328] '' --> ' '", - "insert text[196:196] --> decoded_text[329:330] '' --> ' '", - "insert text[197:197] --> decoded_text[331:332] '' --> ' '", - "insert text[198:198] --> decoded_text[333:334] '' --> ' '", - "insert text[199:199] --> decoded_text[335:336] '' --> ' '", - "insert text[200:200] --> decoded_text[337:338] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.03482587064676617, - "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[31:31] --> decoded_text[60:61] '' --> ' '", - "insert text[32:32] --> decoded_text[62:63] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "insert text[62:62] --> decoded_text[121:122] '' --> ' '", - "insert text[63:63] --> decoded_text[123:124] '' --> ' '", - "insert text[64:64] --> decoded_text[125:126] '' --> ' '", - "insert text[65:65] --> decoded_text[127:128] '' --> ' '", - "insert text[66:66] --> decoded_text[129:130] '' --> ' '", - "insert text[67:67] --> decoded_text[131:132] '' --> ' '", - "insert text[68:68] --> decoded_text[133:134] '' --> ' '", - "insert text[69:69] --> decoded_text[135:136] '' --> ' '", - "insert text[70:70] --> decoded_text[137:138] '' --> ' '", - "insert text[71:71] --> decoded_text[139:140] '' --> ' '", - "insert text[72:72] --> decoded_text[141:142] '' --> ' '", - "insert text[73:73] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '", - "insert text[78:78] --> decoded_text[152:153] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[11:11] --> decoded_text[18:19] '' --> ' '", - "insert text[12:12] --> decoded_text[20:21] '' --> ' '", - "insert text[13:13] --> decoded_text[22:23] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[15:15] --> decoded_text[26:27] '' --> ' '", - "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", - "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", - "insert text[21:21] --> decoded_text[38:39] '' --> ' '", - "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", - "insert text[24:24] --> decoded_text[44:45] '' --> ' '", - "insert text[25:25] --> decoded_text[46:47] '' --> ' '", - "insert text[26:26] --> decoded_text[48:49] '' --> ' '", - "insert text[27:27] --> decoded_text[50:51] '' --> ' '", - "insert text[28:28] --> decoded_text[52:53] '' --> ' '", - "insert text[29:29] --> decoded_text[54:55] '' --> ' '", - "insert text[30:30] --> decoded_text[56:57] '' --> ' '", - "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", - "insert text[34:34] --> decoded_text[64:65] '' --> ' '", - "insert text[35:35] --> decoded_text[66:67] '' --> ' '", - "insert text[36:36] --> decoded_text[68:69] '' --> ' '", - "insert text[37:37] --> decoded_text[70:71] '' --> ' '", - "insert text[38:38] --> decoded_text[72:73] '' --> ' '", - "insert text[39:39] --> decoded_text[74:75] '' --> ' '", - "insert text[40:40] --> decoded_text[76:77] '' --> ' '", - "insert text[41:41] --> decoded_text[78:79] '' --> ' '", - "insert text[42:42] --> decoded_text[80:81] '' --> ' '", - "insert text[43:43] --> decoded_text[82:83] '' --> ' '", - "insert text[44:44] --> decoded_text[84:85] '' --> ' '", - "insert text[45:45] --> decoded_text[86:87] '' --> ' '", - "insert text[46:46] --> decoded_text[88:89] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", - "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", - "insert text[83:83] --> decoded_text[162:163] '' --> ' '", - "insert text[84:84] --> decoded_text[164:165] '' --> ' '", - "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", - "insert text[87:87] --> decoded_text[170:171] '' --> ' '", - "insert text[88:88] --> decoded_text[172:173] '' --> ' '", - "insert text[89:89] --> decoded_text[174:175] '' --> ' '", - "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", - "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", - "insert text[96:96] --> decoded_text[188:189] '' --> ' '", - "insert text[97:97] --> decoded_text[190:191] '' --> ' '", - "insert text[98:98] --> decoded_text[192:193] '' --> ' '", - "insert text[99:99] --> decoded_text[194:195] '' --> ' '", - "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", - "insert text[102:102] --> decoded_text[200:201] '' --> ' '", - "insert text[103:103] --> decoded_text[202:203] '' --> ' '", - "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", - "insert text[109:109] --> decoded_text[214:215] '' --> ' '", - "insert text[110:110] --> decoded_text[216:217] '' --> ' '", - "insert text[111:111] --> decoded_text[218:219] '' --> ' '", - "insert text[112:112] --> decoded_text[220:221] '' --> ' '", - "insert text[113:113] --> decoded_text[222:223] '' --> ' '", - "insert text[114:114] --> decoded_text[224:225] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", - "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", - "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", - "insert text[72:72] --> decoded_text[147:148] '' --> ' '", - "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", - "insert text[75:75] --> decoded_text[153:154] '' --> ' '", - "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", - "insert text[78:78] --> decoded_text[159:160] '' --> ' '", - "insert text[79:79] --> decoded_text[161:162] '' --> ' '", - "insert text[80:80] --> decoded_text[163:164] '' --> ' '", - "insert text[81:81] --> decoded_text[165:166] '' --> ' '", - "insert text[82:82] --> decoded_text[167:168] '' --> ' '", - "insert text[83:83] --> decoded_text[169:170] '' --> ' '", - "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", - "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", - "insert text[88:88] --> decoded_text[179:180] '' --> ' '", - "insert text[89:89] --> decoded_text[181:182] '' --> ' '", - "insert text[90:90] --> decoded_text[183:184] '' --> ' '", - "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", - "insert text[94:94] --> decoded_text[191:192] '' --> ' '", - "insert text[95:95] --> decoded_text[193:194] '' --> ' '", - "insert text[96:96] --> decoded_text[195:196] '' --> ' '", - "insert text[97:97] --> decoded_text[197:198] '' --> ' '", - "insert text[98:98] --> decoded_text[199:200] '' --> ' '", - "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", - "insert text[102:102] --> decoded_text[207:208] '' --> ' '", - "insert text[103:103] --> decoded_text[209:210] '' --> ' '", - "insert text[104:104] --> decoded_text[211:212] '' --> ' '", - "insert text[105:105] --> decoded_text[213:214] '' --> ' '", - "insert text[106:106] --> decoded_text[215:216] '' --> ' '", - "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", - "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", - "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", - "insert text[116:116] --> decoded_text[239:240] '' --> ' '", - "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", - "insert text[119:119] --> decoded_text[245:246] '' --> ' '", - "insert text[120:120] --> decoded_text[247:248] '' --> ' '", - "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", - "insert text[123:123] --> decoded_text[253:254] '' --> ' '", - "insert text[124:124] --> decoded_text[255:256] '' --> ' '", - "insert text[125:125] --> decoded_text[257:258] '' --> ' '", - "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", - "insert text[132:132] --> decoded_text[271:272] '' --> ' '", - "insert text[133:133] --> decoded_text[273:274] '' --> ' '", - "insert text[134:134] --> decoded_text[275:276] '' --> ' '", - "insert text[135:135] --> decoded_text[277:278] '' --> ' '", - "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.014598540145985401, - "oov_charset": "[\"“\", \"”\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[56:56] --> decoded_text[107:108] '' --> ' '", - "insert text[57:57] --> decoded_text[109:110] '' --> ' '", - "insert text[58:58] --> decoded_text[111:112] '' --> ' '", - "insert text[59:59] --> decoded_text[113:114] '' --> ' '", - "insert text[60:60] --> decoded_text[115:116] '' --> ' '", - "insert text[61:61] --> decoded_text[117:118] '' --> ' '", - "insert text[62:62] --> decoded_text[119:120] '' --> ' '", - "insert text[63:63] --> decoded_text[121:122] '' --> ' '", - "insert text[64:64] --> decoded_text[123:124] '' --> ' '", - "insert text[65:65] --> decoded_text[125:126] '' --> ' '", - "insert text[66:66] --> decoded_text[127:128] '' --> ' '", - "insert text[67:67] --> decoded_text[129:130] '' --> ' '", - "insert text[68:68] --> decoded_text[131:132] '' --> ' '", - "insert text[69:69] --> decoded_text[133:134] '' --> ' '", - "insert text[70:70] --> decoded_text[135:136] '' --> ' '", - "insert text[71:71] --> decoded_text[137:138] '' --> ' '", - "insert text[72:72] --> decoded_text[139:140] '' --> ' '", - "insert text[73:73] --> decoded_text[141:142] '' --> ' '", - "insert text[74:74] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[145:146] '' --> ' '", - "insert text[76:76] --> decoded_text[147:148] '' --> ' '", - "insert text[77:77] --> decoded_text[149:150] '' --> ' '", - "insert text[78:78] --> decoded_text[151:152] '' --> ' '", - "insert text[79:79] --> decoded_text[153:154] '' --> ' '", - "insert text[80:80] --> decoded_text[155:156] '' --> ' '", - "insert text[81:81] --> decoded_text[157:158] '' --> ' '", - "insert text[82:82] --> decoded_text[159:160] '' --> ' '", - "insert text[83:83] --> decoded_text[161:162] '' --> ' '", - "insert text[84:84] --> decoded_text[163:164] '' --> ' '", - "insert text[85:85] --> decoded_text[165:166] '' --> ' '", - "insert text[86:86] --> decoded_text[167:168] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "insert text[2:2] --> decoded_text[7:8] '' --> ' '", - "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", - "insert text[5:5] --> decoded_text[13:14] '' --> ' '", - "insert text[6:6] --> decoded_text[15:16] '' --> ' '", - "insert text[7:7] --> decoded_text[17:18] '' --> ' '", - "insert text[8:8] --> decoded_text[19:20] '' --> ' '", - "insert text[9:9] --> decoded_text[21:22] '' --> ' '", - "insert text[10:10] --> decoded_text[23:24] '' --> ' '", - "insert text[11:11] --> decoded_text[25:26] '' --> ' '", - "insert text[12:12] --> decoded_text[27:28] '' --> ' '", - "insert text[13:13] --> decoded_text[29:30] '' --> ' '", - "insert text[14:14] --> decoded_text[31:32] '' --> ' '", - "insert text[15:15] --> decoded_text[33:34] '' --> ' '", - "insert text[16:16] --> decoded_text[35:36] '' --> ' '", - "insert text[17:17] --> decoded_text[37:38] '' --> ' '", - "insert text[18:18] --> decoded_text[39:40] '' --> ' '", - "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", - "insert text[21:21] --> decoded_text[49:50] '' --> ' '", - "insert text[22:22] --> decoded_text[51:52] '' --> ' '", - "insert text[23:23] --> decoded_text[53:54] '' --> ' '", - "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", - "insert text[27:27] --> decoded_text[65:66] '' --> ' '", - "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", - "insert text[30:30] --> decoded_text[71:72] '' --> ' '", - "insert text[31:31] --> decoded_text[73:74] '' --> ' '", - "insert text[32:32] --> decoded_text[75:76] '' --> ' '", - "insert text[33:33] --> decoded_text[77:78] '' --> ' '", - "insert text[34:34] --> decoded_text[79:80] '' --> ' '", - "insert text[35:35] --> decoded_text[81:82] '' --> ' '", - "insert text[36:36] --> decoded_text[83:84] '' --> ' '", - "insert text[37:37] --> decoded_text[85:86] '' --> ' '", - "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", - "insert text[41:41] --> decoded_text[93:94] '' --> ' '", - "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", - "insert text[44:44] --> decoded_text[99:100] '' --> ' '", - "insert text[45:45] --> decoded_text[101:102] '' --> ' '", - "insert text[46:46] --> decoded_text[103:104] '' --> ' '", - "insert text[47:47] --> decoded_text[105:106] '' --> ' '", - "insert text[48:48] --> decoded_text[107:108] '' --> ' '", - "insert text[49:49] --> decoded_text[109:110] '' --> ' '", - "insert text[50:50] --> decoded_text[111:112] '' --> ' '", - "insert text[51:51] --> decoded_text[113:114] '' --> ' '", - "insert text[52:52] --> decoded_text[115:116] '' --> ' '", - "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", - "insert text[55:55] --> decoded_text[121:122] '' --> ' '", - "insert text[56:56] --> decoded_text[123:124] '' --> ' '", - "insert text[57:57] --> decoded_text[125:126] '' --> ' '", - "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", - "insert text[60:60] --> decoded_text[131:132] '' --> ' '", - "insert text[61:61] --> decoded_text[133:134] '' --> ' '", - "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", - "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", - "insert text[67:67] --> decoded_text[145:146] '' --> ' '", - "insert text[68:68] --> decoded_text[147:148] '' --> ' '", - "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", - "insert text[71:71] --> decoded_text[153:154] '' --> ' '", - "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", - "insert text[74:74] --> decoded_text[163:164] '' --> ' '", - "insert text[75:75] --> decoded_text[165:166] '' --> ' '", - "insert text[76:76] --> decoded_text[167:168] '' --> ' '", - "insert text[77:77] --> decoded_text[169:170] '' --> ' '", - "insert text[78:78] --> decoded_text[171:172] '' --> ' '", - "insert text[79:79] --> decoded_text[173:174] '' --> ' '", - "insert text[80:80] --> decoded_text[175:176] '' --> ' '", - "insert text[81:81] --> decoded_text[177:178] '' --> ' '", - "insert text[82:82] --> decoded_text[179:180] '' --> ' '", - "insert text[83:83] --> decoded_text[181:182] '' --> ' '", - "insert text[84:84] --> decoded_text[183:184] '' --> ' '", - "insert text[85:85] --> decoded_text[185:186] '' --> ' '", - "insert text[86:86] --> decoded_text[187:188] '' --> ' '", - "insert text[87:87] --> decoded_text[189:190] '' --> ' '", - "insert text[88:88] --> decoded_text[191:192] '' --> ' '", - "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", - "insert text[91:91] --> decoded_text[197:198] '' --> ' '", - "insert text[92:92] --> decoded_text[199:200] '' --> ' '", - "insert text[93:93] --> decoded_text[201:202] '' --> ' '", - "insert text[94:94] --> decoded_text[203:204] '' --> ' '", - "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", - "insert text[97:97] --> decoded_text[209:210] '' --> ' '", - "insert text[98:98] --> decoded_text[211:212] '' --> ' '", - "insert text[99:99] --> decoded_text[213:214] '' --> ' '", - "insert text[100:100] --> decoded_text[215:216] '' --> ' '", - "insert text[101:101] --> decoded_text[217:218] '' --> ' '", - "insert text[102:102] --> decoded_text[219:220] '' --> ' '", - "insert text[103:103] --> decoded_text[221:222] '' --> ' '", - "insert text[104:104] --> decoded_text[223:224] '' --> ' '", - "insert text[105:105] --> decoded_text[225:226] '' --> ' '", - "insert text[106:106] --> decoded_text[227:228] '' --> ' '", - "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", - "insert text[109:109] --> decoded_text[233:234] '' --> ' '", - "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", - "insert text[113:113] --> decoded_text[241:242] '' --> ' '", - "insert text[114:114] --> decoded_text[243:244] '' --> ' '", - "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", - "insert text[117:117] --> decoded_text[253:254] '' --> ' '", - "insert text[118:118] --> decoded_text[255:256] '' --> ' '", - "insert text[119:119] --> decoded_text[257:258] '' --> ' '", - "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", - "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", - "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", - "insert text[127:127] --> decoded_text[285:286] '' --> ' '", - "insert text[128:128] --> decoded_text[287:288] '' --> ' '", - "insert text[129:129] --> decoded_text[289:290] '' --> ' '", - "insert text[130:130] --> decoded_text[291:292] '' --> ' '", - "insert text[131:131] --> decoded_text[293:294] '' --> ' '" - ], - "n_oov_chars": 8, - "oov_ratio": 0.06060606060606061, - "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 [UNK] 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:133] --> decoded_text[240:249] '车4S' --> ' 车 [UNK] '", + "insert text[134:134] --> decoded_text[250:251] '' --> ' '", + "insert text[135:135] --> decoded_text[252:253] '' --> ' '", + "replace text[136:137] --> decoded_text[254:257] ',' --> ' , '", + "insert text[138:138] --> decoded_text[258:259] '' --> ' '", + "insert text[139:139] --> decoded_text[260:261] '' --> ' '", + "insert text[140:140] --> decoded_text[262:263] '' --> ' '", + "replace text[141:142] --> decoded_text[264:267] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[268:269] '' --> ' '", + "insert text[144:144] --> decoded_text[270:271] '' --> ' '", + "replace text[145:146] --> decoded_text[272:275] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[276:277] '' --> ' '", + "replace text[148:149] --> decoded_text[278:281] ',' --> ' , '", + "insert text[150:150] --> decoded_text[282:283] '' --> ' '", + "insert text[151:151] --> decoded_text[284:285] '' --> ' '", + "insert text[152:152] --> decoded_text[286:287] '' --> ' '", + "replace text[153:154] --> decoded_text[288:291] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[292:293] '' --> ' '", + "insert text[156:156] --> decoded_text[294:295] '' --> ' '", + "insert text[157:157] --> decoded_text[296:297] '' --> ' '", + "insert text[158:158] --> decoded_text[298:299] '' --> ' '", + "insert text[159:159] --> decoded_text[300:301] '' --> ' '", + "insert text[163:163] --> decoded_text[305:306] '' --> ' '", + "insert text[164:164] --> decoded_text[307:308] '' --> ' '", + "insert text[165:165] --> decoded_text[309:310] '' --> ' '", + "insert text[166:166] --> decoded_text[311:312] '' --> ' '", + "insert text[167:167] --> decoded_text[313:314] '' --> ' '", + "replace text[168:169] --> decoded_text[315:318] ',' --> ' , '", + "insert text[170:170] --> decoded_text[319:320] '' --> ' '", + "replace text[171:173] --> decoded_text[321:326] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[327:328] '' --> ' '", + "insert text[175:175] --> decoded_text[329:330] '' --> ' '", + "insert text[176:176] --> decoded_text[331:332] '' --> ' '", + "insert text[177:177] --> decoded_text[333:334] '' --> ' '", + "insert text[178:178] --> decoded_text[335:336] '' --> ' '", + "insert text[179:179] --> decoded_text[337:338] '' --> ' '", + "insert text[180:180] --> decoded_text[339:340] '' --> ' '", + "insert text[181:181] --> decoded_text[341:342] '' --> ' '", + "insert text[182:182] --> decoded_text[343:344] '' --> ' '", + "replace text[183:184] --> decoded_text[345:348] ',' --> ' , '", + "insert text[185:185] --> decoded_text[349:350] '' --> ' '", + "insert text[186:186] --> decoded_text[351:352] '' --> ' '", + "insert text[187:187] --> decoded_text[353:354] '' --> ' '", + "insert text[188:188] --> decoded_text[355:356] '' --> ' '", + "replace text[189:190] --> decoded_text[357:360] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[361:362] '' --> ' '", + "insert text[192:192] --> decoded_text[363:364] '' --> ' '", + "insert text[193:193] --> decoded_text[365:366] '' --> ' '", + "insert text[194:194] --> decoded_text[367:368] '' --> ' '", + "insert text[195:195] --> decoded_text[369:370] '' --> ' '", + "insert text[196:196] --> decoded_text[371:372] '' --> ' '", + "insert text[206:206] --> decoded_text[382:383] '' --> ' '", + "insert text[207:207] --> decoded_text[384:385] '' --> ' '", + "insert text[211:211] --> decoded_text[389:390] '' --> ' '", + "insert text[212:212] --> decoded_text[391:392] '' --> ' '", + "insert text[213:213] --> decoded_text[393:394] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004672897196261682, + "oov_charset": "[\"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( [UNK] ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( [UNK] ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 [UNK] 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 [UNK] 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:72] --> decoded_text[121:128] 'RingoStarr' --> ' [UNK] '", + "insert text[73:73] --> decoded_text[129:130] '' --> ' '", + "insert text[74:74] --> decoded_text[131:132] '' --> ' '", + "insert text[75:75] --> decoded_text[133:134] '' --> ' '", + "insert text[76:76] --> decoded_text[135:136] '' --> ' '", + "insert text[77:77] --> decoded_text[137:138] '' --> ' '", + "insert text[78:78] --> decoded_text[139:140] '' --> ' '", + "insert text[79:79] --> decoded_text[141:142] '' --> ' '", + "replace text[80:81] --> decoded_text[143:146] ',' --> ' , '", + "insert text[82:82] --> decoded_text[147:148] '' --> ' '", + "insert text[83:83] --> decoded_text[149:150] '' --> ' '", + "insert text[84:84] --> decoded_text[151:152] '' --> ' '", + "insert text[85:85] --> decoded_text[153:154] '' --> ' '", + "insert text[86:86] --> decoded_text[155:156] '' --> ' '", + "insert text[87:87] --> decoded_text[157:158] '' --> ' '", + "insert text[88:88] --> decoded_text[159:160] '' --> ' '", + "insert text[89:89] --> decoded_text[161:162] '' --> ' '", + "insert text[90:90] --> decoded_text[163:164] '' --> ' '", + "insert text[91:91] --> decoded_text[165:166] '' --> ' '", + "insert text[92:92] --> decoded_text[167:168] '' --> ' '", + "insert text[93:93] --> decoded_text[169:170] '' --> ' '", + "replace text[94:95] --> decoded_text[171:174] ',' --> ' , '", + "insert text[96:96] --> decoded_text[175:176] '' --> ' '", + "insert text[97:97] --> decoded_text[177:178] '' --> ' '", + "insert text[98:98] --> decoded_text[179:180] '' --> ' '", + "insert text[99:99] --> decoded_text[181:182] '' --> ' '", + "insert text[100:100] --> decoded_text[183:184] '' --> ' '", + "insert text[101:101] --> decoded_text[185:186] '' --> ' '", + "insert text[102:102] --> decoded_text[187:188] '' --> ' '", + "insert text[103:103] --> decoded_text[189:190] '' --> ' '", + "insert text[104:104] --> decoded_text[191:192] '' --> ' '", + "insert text[105:105] --> decoded_text[193:194] '' --> ' '", + "insert text[106:106] --> decoded_text[195:196] '' --> ' '", + "insert text[107:107] --> decoded_text[197:198] '' --> ' '", + "insert text[108:108] --> decoded_text[199:200] '' --> ' '", + "insert text[109:109] --> decoded_text[201:202] '' --> ' '", + "insert text[110:110] --> decoded_text[203:204] '' --> ' '", + "insert text[111:111] --> decoded_text[205:206] '' --> ' '", + "replace text[112:124] --> decoded_text[207:214] 'JuliaRoberts' --> ' [UNK] '", + "insert text[125:125] --> decoded_text[215:216] '' --> ' '", + "insert text[126:126] --> decoded_text[217:218] '' --> ' '", + "insert text[127:127] --> decoded_text[219:220] '' --> ' '", + "insert text[128:128] --> decoded_text[221:222] '' --> ' '", + "insert text[129:129] --> decoded_text[223:224] '' --> ' '", + "insert text[130:130] --> decoded_text[225:226] '' --> ' '", + "insert text[131:131] --> decoded_text[227:228] '' --> ' '", + "insert text[132:132] --> decoded_text[229:230] '' --> ' '", + "replace text[133:134] --> decoded_text[231:234] ',' --> ' , '", + "insert text[135:135] --> decoded_text[235:236] '' --> ' '", + "insert text[136:136] --> decoded_text[237:238] '' --> ' '", + "insert text[137:137] --> decoded_text[239:240] '' --> ' '", + "insert text[138:138] --> decoded_text[241:242] '' --> ' '", + "insert text[139:139] --> decoded_text[243:244] '' --> ' '", + "insert text[140:140] --> decoded_text[245:246] '' --> ' '", + "insert text[141:141] --> decoded_text[247:248] '' --> ' '", + "insert text[142:142] --> decoded_text[249:250] '' --> ' '", + "insert text[143:143] --> decoded_text[251:252] '' --> ' '", + "insert text[144:144] --> decoded_text[253:254] '' --> ' '", + "replace text[145:146] --> decoded_text[255:258] ',' --> ' , '", + "insert text[147:147] --> decoded_text[259:260] '' --> ' '", + "insert text[148:148] --> decoded_text[261:262] '' --> ' '", + "insert text[149:149] --> decoded_text[263:264] '' --> ' '", + "insert text[150:150] --> decoded_text[265:266] '' --> ' '", + "insert text[151:151] --> decoded_text[267:268] '' --> ' '", + "replace text[152:162] --> decoded_text[269:276] 'QueenieEye' --> ' [UNK] '", + "replace text[163:164] --> decoded_text[277:280] ',' --> ' , '", + "insert text[165:165] --> decoded_text[281:282] '' --> ' '", + "insert text[166:166] --> decoded_text[283:284] '' --> ' '", + "insert text[167:167] --> decoded_text[285:286] '' --> ' '", + "insert text[168:168] --> decoded_text[287:288] '' --> ' '", + "insert text[169:169] --> decoded_text[289:290] '' --> ' '", + "insert text[170:170] --> decoded_text[291:292] '' --> ' '", + "insert text[171:171] --> decoded_text[293:294] '' --> ' '", + "insert text[172:172] --> decoded_text[295:296] '' --> ' '", + "insert text[173:173] --> decoded_text[297:298] '' --> ' '", + "insert text[174:174] --> decoded_text[299:300] '' --> ' '", + "replace text[175:185] --> decoded_text[301:308] 'Photograph' --> ' [UNK] '", + "replace text[186:187] --> decoded_text[309:312] ',' --> ' , '", + "insert text[188:188] --> decoded_text[313:314] '' --> ' '", + "insert text[189:189] --> decoded_text[315:316] '' --> ' '", + "insert text[190:190] --> decoded_text[317:318] '' --> ' '", + "insert text[191:191] --> decoded_text[319:320] '' --> ' '", + "insert text[192:192] --> decoded_text[321:322] '' --> ' '", + "insert text[193:193] --> decoded_text[323:324] '' --> ' '", + "insert text[194:194] --> decoded_text[325:326] '' --> ' '", + "insert text[195:195] --> decoded_text[327:328] '' --> ' '", + "insert text[196:196] --> decoded_text[329:330] '' --> ' '", + "insert text[197:197] --> decoded_text[331:332] '' --> ' '", + "insert text[198:198] --> decoded_text[333:334] '' --> ' '", + "insert text[199:199] --> decoded_text[335:336] '' --> ' '", + "insert text[200:200] --> decoded_text[337:338] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json index 92f989959acf16c831a08b5f796077166cc1b839..1552f440d2345cd00d24c3c225d5599c3270e599 100644 --- a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json @@ -1,150 +1,150 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby [UNK] s International Realty Canada.", - "diff": [ - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "insert text[201:201] --> decoded_text[205:206] '' --> ' '", - "replace text[229:230] --> decoded_text[234:241] '’' --> ' [UNK] '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0038461538461538464, - "oov_charset": "[\"’\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "[UNK] Within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent Christa Frosch of Sotheby [UNK] s tells BuzzBuzzNews.", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[64:65] '' --> ' '", - "insert text[66:66] --> decoded_text[78:79] '' --> ' '", - "insert text[79:79] --> decoded_text[92:93] '' --> ' '", - "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", - "replace text[181:182] --> decoded_text[200:207] '’' --> ' [UNK] '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.019704433497536946, - "oov_charset": "[\"“\", \"’\", \"”\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", - "diff": [ - "insert text[9:9] --> decoded_text[9:10] '' --> ' '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "insert text[173:173] --> decoded_text[175:176] '' --> ' '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "insert text[340:340] --> decoded_text[345:346] '' --> ' '", - "insert text[376:376] --> decoded_text[382:383] '' --> ' '", - "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002570694087403599, - "oov_charset": "[\"’\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "[UNK] We just went to the market yesterday, it [UNK] s private through Sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says Frosch.", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", - "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", - "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", - "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.04065040650406504, - "oov_charset": "[\"“\", \"’\", \"”\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "Stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", - "insert text[57:57] --> decoded_text[63:64] '' --> ' '", - "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", - "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", - "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.012658227848101266, - "oov_charset": "[\"—\", \"“\", \"”\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", - "diff": [ - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", - "diff": [ - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "insert text[95:95] --> decoded_text[98:99] '' --> ' '", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", - "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", - "diff": [ - "insert text[22:22] --> decoded_text[22:23] '' --> ' '", - "insert text[116:116] --> decoded_text[117:118] '' --> ' '", - "insert text[121:121] --> decoded_text[123:124] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", - "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", - "diff": [ - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[38:38] --> decoded_text[39:40] '' --> ' '", - "insert text[39:39] --> decoded_text[41:42] '' --> ' '", - "insert text[42:42] --> decoded_text[45:46] '' --> ' '", - "insert text[72:72] --> decoded_text[76:77] '' --> ' '", - "insert text[107:107] --> decoded_text[112:113] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby [UNK] s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "replace text[229:230] --> decoded_text[234:241] '’' --> ' [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0038461538461538464, + "oov_charset": "[\"’\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] Within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent Christa Frosch of Sotheby [UNK] s tells BuzzBuzzNews.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[181:182] --> decoded_text[200:207] '’' --> ' [UNK] '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.019704433497536946, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002570694087403599, + "oov_charset": "[\"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] We just went to the market yesterday, it [UNK] s private through Sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says Frosch.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04065040650406504, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"—\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "insert text[95:95] --> decoded_text[98:99] '' --> ' '", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json index 10aac206d5c107d7be7ba5f0faeff61508749510..bf0af500aa7a4c10f300285aa1f47b5486fded27 100644 --- a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json @@ -1,116 +1,116 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la [UNK] criminal \" Los Sanguinarios del Norte Chico \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de drogas. \", [UNK] Medina.", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[80:92] --> decoded_text[81:86] 'organización' --> '[UNK]'", - "insert text[103:103] --> decoded_text[97:98] '' --> ' '", - "replace text[135:161] --> decoded_text[130:153] '\" dedicados a la extorsión' --> ' \" dedicados a la [UNK]'", - "replace text[180:195] --> decoded_text[172:183] 'tráfico ilícito' --> '[UNK] [UNK]'", - "replace text[206:216] --> decoded_text[194:203] '\", explicó' --> ' \", [UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022321428571428572, - "oov_charset": "[\"ó\", \"á\", \"í\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la [UNK] criminal.", - "diff": [ - "replace text[56:68] --> decoded_text[56:61] 'organización' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01282051282051282, - "oov_charset": "[\"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 [UNK]. Asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[130:139] --> decoded_text[130:135] 'vehículos' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005376344086021506, - "oov_charset": "[\"í\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. El [UNK] de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[6:13] --> decoded_text[6:11] 'período' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "[UNK] Art. 2, Ley 4 / 1983, de 29 de junio, de [UNK] de la jornada", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "insert text[15:15] --> decoded_text[19:20] '' --> ' '", - "insert text[16:16] --> decoded_text[21:22] '' --> ' '", - "replace text[41:49] --> decoded_text[47:52] 'fijación' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"–\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. El [UNK] o [UNK] de su disfrute se [UNK] de [UNK]", - "diff": [ - "replace text[6:13] --> decoded_text[6:11] 'período' --> '[UNK]'", - "replace text[16:24] --> decoded_text[14:19] 'períodos' --> '[UNK]'", - "replace text[43:49] --> decoded_text[38:43] 'fijará' --> '[UNK]'", - "replace text[53:58] --> decoded_text[47:52] 'común' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.06896551724137931, - "oov_charset": "[\"í\", \"á\", \"ú\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre [UNK] anual de las vacaciones.", - "diff": [ - "replace text[6:19] --> decoded_text[6:11] 'planificación' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "En caso de desacuerdo entre las partes, la [UNK] competente", - "diff": [ - "replace text[43:55] --> decoded_text[43:48] 'jurisdicción' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015151515151515152, - "oov_charset": "[\"ó\"]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "[UNK] Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "insert text[15:15] --> decoded_text[19:20] '' --> ' '", - "insert text[16:16] --> decoded_text[21:22] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"–\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la [UNK] criminal \" Los Sanguinarios del Norte Chico \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de drogas. \", [UNK] Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[80:92] --> decoded_text[81:86] 'organización' --> '[UNK]'", + "insert text[103:103] --> decoded_text[97:98] '' --> ' '", + "replace text[135:161] --> decoded_text[130:153] '\" dedicados a la extorsión' --> ' \" dedicados a la [UNK]'", + "replace text[180:195] --> decoded_text[172:183] 'tráfico ilícito' --> '[UNK] [UNK]'", + "replace text[206:216] --> decoded_text[194:203] '\", explicó' --> ' \", [UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022321428571428572, + "oov_charset": "[\"ó\", \"á\", \"í\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la [UNK] criminal.", + "diff": [ + "replace text[56:68] --> decoded_text[56:61] 'organización' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 [UNK]. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[130:139] --> decoded_text[130:135] 'vehículos' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El [UNK] de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[6:13] --> decoded_text[6:11] 'período' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] Art. 2, Ley 4 / 1983, de 29 de junio, de [UNK] de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[41:49] --> decoded_text[47:52] 'fijación' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"–\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El [UNK] o [UNK] de su disfrute se [UNK] de [UNK]", + "diff": [ + "replace text[6:13] --> decoded_text[6:11] 'período' --> '[UNK]'", + "replace text[16:24] --> decoded_text[14:19] 'períodos' --> '[UNK]'", + "replace text[43:49] --> decoded_text[38:43] 'fijará' --> '[UNK]'", + "replace text[53:58] --> decoded_text[47:52] 'común' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06896551724137931, + "oov_charset": "[\"í\", \"á\", \"ú\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre [UNK] anual de las vacaciones.", + "diff": [ + "replace text[6:19] --> decoded_text[6:11] 'planificación' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "En caso de desacuerdo entre las partes, la [UNK] competente", + "diff": [ + "replace text[43:55] --> decoded_text[43:48] 'jurisdicción' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"ó\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "[UNK] Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"–\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json index 877e2d30ebf91e2b7a957ad578062f06771ab388..eea8cb200b5819125d6b1638f41a44a3575c9f30 100644 --- a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json @@ -1,126 +1,126 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "Bon, comme je ne suis pas le seul [UNK] avoir [UNK] de [UNK] ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", - "diff": [ - "replace text[34:35] --> decoded_text[34:39] 'à' --> '[UNK]'", - "replace text[42:50] --> decoded_text[46:51] 'envisagé' --> '[UNK]'", - "replace text[54:59] --> decoded_text[55:60] 'créer' --> '[UNK]'", - "replace text[91:96] --> decoded_text[92:97] 'était' --> '[UNK]'", - "replace text[102:106] --> decoded_text[103:108] 'être' --> '[UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.03875968992248062, - "oov_charset": "[\"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on [UNK].", - "diff": [ - "replace text[74:84] --> decoded_text[74:79] 'réfléchira' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.023529411764705882, - "oov_charset": "[\"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "Encore une fois, vous n'etes pas [UNK] de vous [UNK] [UNK]", - "diff": [ - "replace text[33:39] --> decoded_text[33:38] 'obligé' --> '[UNK]'", - "replace text[48:56] --> decoded_text[47:52] 'dévoilez' --> '[UNK]'", - "replace text[57:68] --> decoded_text[53:58] 'entièrement' --> '[UNK]'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.04411764705882353, - "oov_charset": "[\"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de [UNK], par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la [UNK]? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[117:124] --> decoded_text[117:122] 'mémoire' --> '[UNK]'", - "insert text[159:159] --> decoded_text[157:158] '' --> ' '", - "replace text[176:194] --> decoded_text[175:194] 'ça dans la soirée ' --> '[UNK] dans la [UNK]'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.012295081967213115, - "oov_charset": "[\"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma [UNK] dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", - "diff": [ - "replace text[67:71] --> decoded_text[67:72] 'mère' --> '[UNK]'", - "replace text[224:225] --> decoded_text[225:230] 'à' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008547008547008548, - "oov_charset": "[\"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- Je penses et [UNK] tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. Exemple, quand j'attends mes soeurs et ma [UNK] devant un magasin, je [UNK] [UNK] la [UNK] du monde.", - "diff": [ - "replace text[15:24] --> decoded_text[15:20] 'réfléchit' --> '[UNK]'", - "replace text[63:64] --> decoded_text[59:64] 'à' --> '[UNK]'", - "replace text[132:136] --> decoded_text[132:137] 'mère' --> '[UNK]'", - "replace text[159:168] --> decoded_text[160:165] 'réfléchit' --> '[UNK]'", - "replace text[169:170] --> decoded_text[166:171] 'à' --> '[UNK]'", - "replace text[174:182] --> decoded_text[175:180] 'création' --> '[UNK]'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"é\", \"à\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du [UNK], et ait tendance [UNK] [UNK] ceux que je connais par Internet ou ailleurs qu'au [UNK]", - "diff": [ - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[67:72] --> decoded_text[69:74] 'lycée' --> '[UNK]'", - "replace text[90:91] --> decoded_text[92:97] 'à' --> '[UNK]'", - "replace text[92:100] --> decoded_text[98:103] 'preférer' --> '[UNK]'", - "replace text[152:157] --> decoded_text[155:160] 'lycée' --> '[UNK]'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.025477707006369428, - "oov_charset": "[\"é\", \"à\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- Je dois [UNK] mentalement instable, par moments", - "diff": [ - "replace text[10:14] --> decoded_text[10:15] 'être' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- Je n'envoie que [UNK] peu de sms et n'appelle personne", - "diff": [ - "replace text[18:22] --> decoded_text[18:23] 'très' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01818181818181818, - "oov_charset": "[\"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- J'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de [UNK] de [UNK], et je sais que je ne dois pas", - "diff": [ - "replace text[16:17] --> decoded_text[16:21] 'à' --> '[UNK]'", - "insert text[43:43] --> decoded_text[47:48] '' --> ' '", - "insert text[50:50] --> decoded_text[55:56] '' --> ' '", - "replace text[95:104] --> decoded_text[101:106] 'capacités' --> '[UNK]'", - "replace text[108:118] --> decoded_text[110:115] 'réflexions' --> '[UNK]'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.020134228187919462, - "oov_charset": "[\"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul [UNK] avoir [UNK] de [UNK] ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", + "diff": [ + "replace text[34:35] --> decoded_text[34:39] 'à' --> '[UNK]'", + "replace text[42:50] --> decoded_text[46:51] 'envisagé' --> '[UNK]'", + "replace text[54:59] --> decoded_text[55:60] 'créer' --> '[UNK]'", + "replace text[91:96] --> decoded_text[92:97] 'était' --> '[UNK]'", + "replace text[102:106] --> decoded_text[103:108] 'être' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.03875968992248062, + "oov_charset": "[\"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on [UNK].", + "diff": [ + "replace text[74:84] --> decoded_text[74:79] 'réfléchira' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.023529411764705882, + "oov_charset": "[\"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "Encore une fois, vous n'etes pas [UNK] de vous [UNK] [UNK]", + "diff": [ + "replace text[33:39] --> decoded_text[33:38] 'obligé' --> '[UNK]'", + "replace text[48:56] --> decoded_text[47:52] 'dévoilez' --> '[UNK]'", + "replace text[57:68] --> decoded_text[53:58] 'entièrement' --> '[UNK]'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.04411764705882353, + "oov_charset": "[\"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de [UNK], par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la [UNK]? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[117:124] --> decoded_text[117:122] 'mémoire' --> '[UNK]'", + "insert text[159:159] --> decoded_text[157:158] '' --> ' '", + "replace text[176:194] --> decoded_text[175:194] 'ça dans la soirée ' --> '[UNK] dans la [UNK]'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012295081967213115, + "oov_charset": "[\"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma [UNK] dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", + "diff": [ + "replace text[67:71] --> decoded_text[67:72] 'mère' --> '[UNK]'", + "replace text[224:225] --> decoded_text[225:230] 'à' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et [UNK] tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. Exemple, quand j'attends mes soeurs et ma [UNK] devant un magasin, je [UNK] [UNK] la [UNK] du monde.", + "diff": [ + "replace text[15:24] --> decoded_text[15:20] 'réfléchit' --> '[UNK]'", + "replace text[63:64] --> decoded_text[59:64] 'à' --> '[UNK]'", + "replace text[132:136] --> decoded_text[132:137] 'mère' --> '[UNK]'", + "replace text[159:168] --> decoded_text[160:165] 'réfléchit' --> '[UNK]'", + "replace text[169:170] --> decoded_text[166:171] 'à' --> '[UNK]'", + "replace text[174:182] --> decoded_text[175:180] 'création' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"é\", \"à\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du [UNK], et ait tendance [UNK] [UNK] ceux que je connais par Internet ou ailleurs qu'au [UNK]", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[67:72] --> decoded_text[69:74] 'lycée' --> '[UNK]'", + "replace text[90:91] --> decoded_text[92:97] 'à' --> '[UNK]'", + "replace text[92:100] --> decoded_text[98:103] 'preférer' --> '[UNK]'", + "replace text[152:157] --> decoded_text[155:160] 'lycée' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.025477707006369428, + "oov_charset": "[\"é\", \"à\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois [UNK] mentalement instable, par moments", + "diff": [ + "replace text[10:14] --> decoded_text[10:15] 'être' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- Je n'envoie que [UNK] peu de sms et n'appelle personne", + "diff": [ + "replace text[18:22] --> decoded_text[18:23] 'très' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de [UNK] de [UNK], et je sais que je ne dois pas", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'à' --> '[UNK]'", + "insert text[43:43] --> decoded_text[47:48] '' --> ' '", + "insert text[50:50] --> decoded_text[55:56] '' --> ' '", + "replace text[95:104] --> decoded_text[101:106] 'capacités' --> '[UNK]'", + "replace text[108:118] --> decoded_text[110:115] 'réflexions' --> '[UNK]'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.020134228187919462, + "oov_charset": "[\"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json index 25f6a6679b9dd1e9c685b7654416fe5fec4fd49a..6e23a4c32c6e32eaed0a9b00a6b3b7db84c4f69b 100644 --- a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json @@ -1,136 +1,136 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4S [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6000 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[55:56] '' --> ' '", - "insert text[14:14] --> decoded_text[60:61] '' --> ' '", - "insert text[26:26] --> decoded_text[73:74] '' --> ' '", - "insert text[29:29] --> decoded_text[77:78] '' --> ' '", - "replace text[30:37] --> decoded_text[79:122] '卡尔・斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[41:131] --> decoded_text[126:667] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[133:159] --> decoded_text[669:826] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[163:196] --> decoded_text[830:1029] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[206:207] --> decoded_text[1039:1046] '转' --> ' [UNK] '", - "replace text[211:214] --> decoded_text[1050:1068] '详询:' --> ' [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 169, - "oov_ratio": 0.7897196261682243, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:124] --> decoded_text[0:743] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 124, - "oov_ratio": 1.0, - "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:80] --> decoded_text[0:479] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 80, - "oov_ratio": 1.0, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1999 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:43] --> decoded_text[0:258] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[47:78] --> decoded_text[262:448] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 74, - "oov_ratio": 0.9487179487179487, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 [UNK] 28 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 50 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( RingoStarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( JuliaRoberts ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] QueenieEye [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] Photograph [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[1:2] --> decoded_text[1:8] '月' --> ' [UNK] '", - "replace text[4:30] --> decoded_text[10:167] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[32:61] --> decoded_text[169:344] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[345:346] '' --> ' '", - "insert text[72:72] --> decoded_text[356:357] '' --> ' '", - "replace text[73:111] --> decoded_text[358:587] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[112:112] --> decoded_text[588:589] '' --> ' '", - "insert text[124:124] --> decoded_text[601:602] '' --> ' '", - "replace text[125:152] --> decoded_text[603:766] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[162:175] --> decoded_text[776:855] '》,然后轮到后者演绎旧作《' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[185:201] --> decoded_text[865:961] '》,带领歌迷重温昔日的美好情怀。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 150, - "oov_ratio": 0.746268656716418, - "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"•\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 21 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 7 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:23] --> decoded_text[0:138] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:32] --> decoded_text[140:183] '元,但司机到账' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[34:44] --> decoded_text[185:246] '元,因此,司机给记者' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:54] --> decoded_text[247:302] '元,除去之前支付的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[55:61] --> decoded_text[303:340] '元,记者净赚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[62:73] --> decoded_text[341:408] '元,还免费乘了本应支付' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[75:79] --> decoded_text[410:434] '元的车。' --> ' [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 70, - "oov_ratio": 0.8860759493670886, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] [UNK] [UNK] )", - "diff": [ - "replace text[0:7] --> decoded_text[0:42] '卡尔・斯利姆于' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[11:110] --> decoded_text[46:641] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[111:114] --> decoded_text[642:661] '方赵春' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 109, - "oov_ratio": 0.9478260869565217, - "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:88] --> decoded_text[0:528] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[89:96] --> decoded_text[529:572] '号位,你非要走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:137] --> decoded_text[573:813] '号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 135, - "oov_ratio": 0.9854014598540146, - "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"“\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"”\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 360 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 600 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:36] --> decoded_text[0:216] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[39:53] --> decoded_text[219:304] '万元人民币,李娜每年的花费是' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[56:79] --> decoded_text[307:446] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[80:87] --> decoded_text[447:489] '万元就出去了。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 80, - "oov_ratio": 0.9195402298850575, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", - "diff": [ - "replace text[0:132] --> decoded_text[0:791] '“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" - ], - "n_oov_chars": 132, - "oov_ratio": 1.0, - "oov_charset": "[\"“\", \"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"‘\", \"血\", \"刀\", \"老\", \"祖\", \"’\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"”\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4S [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6000 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:37] --> decoded_text[79:122] '卡尔・斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[41:131] --> decoded_text[126:667] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[133:159] --> decoded_text[669:826] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[163:196] --> decoded_text[830:1029] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[1039:1046] '转' --> ' [UNK] '", + "replace text[211:214] --> decoded_text[1050:1068] '详询:' --> ' [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:124] --> decoded_text[0:743] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:80] --> decoded_text[0:479] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1999 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:258] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[47:78] --> decoded_text[262:448] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 [UNK] 28 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 50 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( RingoStarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( JuliaRoberts ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] QueenieEye [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] Photograph [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[1:2] --> decoded_text[1:8] '月' --> ' [UNK] '", + "replace text[4:30] --> decoded_text[10:167] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:61] --> decoded_text[169:344] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[345:346] '' --> ' '", + "insert text[72:72] --> decoded_text[356:357] '' --> ' '", + "replace text[73:111] --> decoded_text[358:587] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[112:112] --> decoded_text[588:589] '' --> ' '", + "insert text[124:124] --> decoded_text[601:602] '' --> ' '", + "replace text[125:152] --> decoded_text[603:766] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[162:175] --> decoded_text[776:855] '》,然后轮到后者演绎旧作《' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[185:201] --> decoded_text[865:961] '》,带领歌迷重温昔日的美好情怀。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 150, + "oov_ratio": 0.746268656716418, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"•\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 21 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 7 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:23] --> decoded_text[0:138] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:32] --> decoded_text[140:183] '元,但司机到账' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[34:44] --> decoded_text[185:246] '元,因此,司机给记者' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:54] --> decoded_text[247:302] '元,除去之前支付的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:61] --> decoded_text[303:340] '元,记者净赚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:73] --> decoded_text[341:408] '元,还免费乘了本应支付' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[75:79] --> decoded_text[410:434] '元的车。' --> ' [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] [UNK] [UNK] )", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '卡尔・斯利姆于' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[11:110] --> decoded_text[46:641] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[111:114] --> decoded_text[642:661] '方赵春' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:88] --> decoded_text[0:528] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[529:572] '号位,你非要走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:137] --> decoded_text[573:813] '号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 135, + "oov_ratio": 0.9854014598540146, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"“\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"”\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 360 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 600 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:36] --> decoded_text[0:216] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[39:53] --> decoded_text[219:304] '万元人民币,李娜每年的花费是' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:79] --> decoded_text[307:446] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:87] --> decoded_text[447:489] '万元就出去了。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:132] --> decoded_text[0:791] '“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 132, + "oov_ratio": 1.0, + "oov_charset": "[\"“\", \"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"‘\", \"血\", \"刀\", \"老\", \"祖\", \"’\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"”\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json index 92f989959acf16c831a08b5f796077166cc1b839..1552f440d2345cd00d24c3c225d5599c3270e599 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json @@ -1,150 +1,150 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby [UNK] s International Realty Canada.", - "diff": [ - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "insert text[201:201] --> decoded_text[205:206] '' --> ' '", - "replace text[229:230] --> decoded_text[234:241] '’' --> ' [UNK] '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0038461538461538464, - "oov_charset": "[\"’\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "[UNK] Within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent Christa Frosch of Sotheby [UNK] s tells BuzzBuzzNews.", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[64:65] '' --> ' '", - "insert text[66:66] --> decoded_text[78:79] '' --> ' '", - "insert text[79:79] --> decoded_text[92:93] '' --> ' '", - "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", - "replace text[181:182] --> decoded_text[200:207] '’' --> ' [UNK] '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.019704433497536946, - "oov_charset": "[\"“\", \"’\", \"”\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", - "diff": [ - "insert text[9:9] --> decoded_text[9:10] '' --> ' '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "insert text[173:173] --> decoded_text[175:176] '' --> ' '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "insert text[340:340] --> decoded_text[345:346] '' --> ' '", - "insert text[376:376] --> decoded_text[382:383] '' --> ' '", - "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.002570694087403599, - "oov_charset": "[\"’\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "[UNK] We just went to the market yesterday, it [UNK] s private through Sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says Frosch.", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", - "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", - "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", - "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.04065040650406504, - "oov_charset": "[\"“\", \"’\", \"”\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "Stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", - "insert text[57:57] --> decoded_text[63:64] '' --> ' '", - "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", - "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", - "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.012658227848101266, - "oov_charset": "[\"—\", \"“\", \"”\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", - "diff": [ - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", - "diff": [ - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "insert text[95:95] --> decoded_text[98:99] '' --> ' '", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", - "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", - "diff": [ - "insert text[22:22] --> decoded_text[22:23] '' --> ' '", - "insert text[116:116] --> decoded_text[117:118] '' --> ' '", - "insert text[121:121] --> decoded_text[123:124] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", - "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", - "diff": [ - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[38:38] --> decoded_text[39:40] '' --> ' '", - "insert text[39:39] --> decoded_text[41:42] '' --> ' '", - "insert text[42:42] --> decoded_text[45:46] '' --> ' '", - "insert text[72:72] --> decoded_text[76:77] '' --> ' '", - "insert text[107:107] --> decoded_text[112:113] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby [UNK] s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "replace text[229:230] --> decoded_text[234:241] '’' --> ' [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0038461538461538464, + "oov_charset": "[\"’\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] Within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent Christa Frosch of Sotheby [UNK] s tells BuzzBuzzNews.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[181:182] --> decoded_text[200:207] '’' --> ' [UNK] '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.019704433497536946, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002570694087403599, + "oov_charset": "[\"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] We just went to the market yesterday, it [UNK] s private through Sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says Frosch.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04065040650406504, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"—\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "insert text[95:95] --> decoded_text[98:99] '' --> ' '", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json index 611189f67c3331bdd63c0a008f5032b592c3a3a0..65ee014b1c1b97edf7d724a6c94e52b6776deb69 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json @@ -1,113 +1,113 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas. \", explicó Medina.", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[103:103] --> decoded_text[104:105] '' --> ' '", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "[UNK] Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "insert text[15:15] --> decoded_text[19:20] '' --> ' '", - "insert text[16:16] --> decoded_text[21:22] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"–\"]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "[UNK] Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "insert text[15:15] --> decoded_text[19:20] '' --> ' '", - "insert text[16:16] --> decoded_text[21:22] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"–\"]" - }, - { - "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", - "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", - "diff": [ - "insert text[62:62] --> decoded_text[62:63] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "El segundo párrafo de este número ha sido incorporado por:", - "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", - "diff": [ - "insert text[57:57] --> decoded_text[57:58] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", - "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "a la Empresa el 50% del periodo restante en la fecha señalada", - "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", - "diff": [ - "insert text[18:18] --> decoded_text[18:19] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", - "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", - "diff": [ - "insert text[33:33] --> decoded_text[33:34] '' --> ' '", - "insert text[34:34] --> decoded_text[35:36] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici [UNK] en definitiva [UNK]. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:84] '…' --> ' [UNK] '", - "replace text[91:92] --> decoded_text[97:103] '…' --> ' [UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas. \", explicó Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"–\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "[UNK] Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"–\"]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", + "diff": [ + "insert text[62:62] --> decoded_text[62:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", + "diff": [ + "insert text[57:57] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", + "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", + "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[34:34] --> decoded_text[35:36] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici [UNK] en definitiva [UNK]. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:84] '…' --> ' [UNK] '", + "replace text[91:92] --> decoded_text[97:103] '…' --> ' [UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json index bb60771e67b7b26cd11aef97f2b3f82db2080e34..4cca459fb4e438415a5f3c250a97405d56acf0e0 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json @@ -1,119 +1,119 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire ça dans la soirée? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "delete text[193:194] --> decoded_text[194:194] ' ' --> ''", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "diff": [ - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- J'ai tendance à voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "diff": [ - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", - "decoded_text": "A la fin, on essayera de trouver des points communs à tous et de tout \" remettre au propre \"", - "diff": [ - "insert text[71:71] --> decoded_text[71:72] '' --> ' '", - "insert text[89:89] --> decoded_text[90:91] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", - "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations )", - "diff": [ - "insert text[64:64] --> decoded_text[64:65] '' --> ' '", - "insert text[229:229] --> decoded_text[230:231] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", - "decoded_text": "- quand quelqu'un critique quelque chose ( ex. plan Vigipirate ) j'essaie tout de suite de réfléchir à une autre solution ( bon ça c'est normal mais je le dis quand même )", - "diff": [ - "insert text[42:42] --> decoded_text[42:43] '' --> ' '", - "insert text[61:61] --> decoded_text[62:63] '' --> ' '", - "insert text[121:121] --> decoded_text[123:124] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", - "decoded_text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins ( généralement pas mon âge pile - poil, la plupart de mes amis ont un ou deux ans de plus que moi )", - "diff": [ - "insert text[82:82] --> decoded_text[82:83] '' --> ' '", - "insert text[111:111] --> decoded_text[112:113] '' --> ' '", - "insert text[112:112] --> decoded_text[114:115] '' --> ' '", - "insert text[175:175] --> decoded_text[178:179] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison ( et c'est moi qui le dis! ), je sais reconnaître quand j'ai tort", - "diff": [ - "insert text[127:127] --> decoded_text[127:128] '' --> ' '", - "insert text[150:150] --> decoded_text[151:152] '' --> '!'", - "delete text[151:152] --> decoded_text[153:153] '!' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'écris très vite et très mal (tout le monde s'en fout)", - "decoded_text": "- j'écris très vite et très mal ( tout le monde s'en fout )", - "diff": [ - "insert text[33:33] --> decoded_text[33:34] '' --> ' '", - "insert text[56:56] --> decoded_text[57:58] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", - "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre ( du moins la majorité ), mais je Cornichonçois peut - être trop bien que tout le monde est différent", - "diff": [ - "insert text[136:136] --> decoded_text[136:137] '' --> ' '", - "insert text[186:186] --> decoded_text[187:188] '' --> ' '", - "insert text[187:187] --> decoded_text[189:190] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire ça dans la soirée? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "delete text[193:194] --> decoded_text[194:194] ' ' --> ''", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance à voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", + "decoded_text": "A la fin, on essayera de trouver des points communs à tous et de tout \" remettre au propre \"", + "diff": [ + "insert text[71:71] --> decoded_text[71:72] '' --> ' '", + "insert text[89:89] --> decoded_text[90:91] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations )", + "diff": [ + "insert text[64:64] --> decoded_text[64:65] '' --> ' '", + "insert text[229:229] --> decoded_text[230:231] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose ( ex. plan Vigipirate ) j'essaie tout de suite de réfléchir à une autre solution ( bon ça c'est normal mais je le dis quand même )", + "diff": [ + "insert text[42:42] --> decoded_text[42:43] '' --> ' '", + "insert text[61:61] --> decoded_text[62:63] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins ( généralement pas mon âge pile - poil, la plupart de mes amis ont un ou deux ans de plus que moi )", + "diff": [ + "insert text[82:82] --> decoded_text[82:83] '' --> ' '", + "insert text[111:111] --> decoded_text[112:113] '' --> ' '", + "insert text[112:112] --> decoded_text[114:115] '' --> ' '", + "insert text[175:175] --> decoded_text[178:179] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison ( et c'est moi qui le dis! ), je sais reconnaître quand j'ai tort", + "diff": [ + "insert text[127:127] --> decoded_text[127:128] '' --> ' '", + "insert text[150:150] --> decoded_text[151:152] '' --> '!'", + "delete text[151:152] --> decoded_text[153:153] '!' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'écris très vite et très mal (tout le monde s'en fout)", + "decoded_text": "- j'écris très vite et très mal ( tout le monde s'en fout )", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[56:56] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre ( du moins la majorité ), mais je Cornichonçois peut - être trop bien que tout le monde est différent", + "diff": [ + "insert text[136:136] --> decoded_text[136:137] '' --> ' '", + "insert text[186:186] --> decoded_text[187:188] '' --> ' '", + "insert text[187:187] --> decoded_text[189:190] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json index 93de6c8f221db4bcc98171b0fcd7d95848c301dc..24834ab253bdd2134829e398952113cd73eac29e 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json @@ -1,1114 +1,1114 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4S 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[26:26] --> decoded_text[37:38] '' --> ' '", - "insert text[29:29] --> decoded_text[41:42] '' --> ' '", - "insert text[30:30] --> decoded_text[43:44] '' --> ' '", - "insert text[31:31] --> decoded_text[45:46] '' --> ' '", - "insert text[32:32] --> decoded_text[47:48] '' --> ' '", - "insert text[33:33] --> decoded_text[49:50] '' --> ' '", - "insert text[34:34] --> decoded_text[51:52] '' --> ' '", - "insert text[35:35] --> decoded_text[53:54] '' --> ' '", - "insert text[36:36] --> decoded_text[55:56] '' --> ' '", - "insert text[37:37] --> decoded_text[57:58] '' --> ' '", - "insert text[41:41] --> decoded_text[62:63] '' --> ' '", - "insert text[42:42] --> decoded_text[64:65] '' --> ' '", - "insert text[43:43] --> decoded_text[66:67] '' --> ' '", - "insert text[44:44] --> decoded_text[68:69] '' --> ' '", - "insert text[45:45] --> decoded_text[70:71] '' --> ' '", - "insert text[46:46] --> decoded_text[72:73] '' --> ' '", - "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", - "insert text[49:49] --> decoded_text[78:79] '' --> ' '", - "insert text[50:50] --> decoded_text[80:81] '' --> ' '", - "insert text[51:51] --> decoded_text[82:83] '' --> ' '", - "insert text[52:52] --> decoded_text[84:85] '' --> ' '", - "insert text[53:53] --> decoded_text[86:87] '' --> ' '", - "insert text[54:54] --> decoded_text[88:89] '' --> ' '", - "insert text[55:55] --> decoded_text[90:91] '' --> ' '", - "insert text[56:56] --> decoded_text[92:93] '' --> ' '", - "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", - "insert text[59:59] --> decoded_text[98:99] '' --> ' '", - "insert text[60:60] --> decoded_text[100:101] '' --> ' '", - "insert text[61:61] --> decoded_text[102:103] '' --> ' '", - "insert text[62:62] --> decoded_text[104:105] '' --> ' '", - "insert text[63:63] --> decoded_text[106:107] '' --> ' '", - "insert text[64:64] --> decoded_text[108:109] '' --> ' '", - "insert text[65:65] --> decoded_text[110:111] '' --> ' '", - "insert text[66:66] --> decoded_text[112:113] '' --> ' '", - "insert text[67:67] --> decoded_text[114:115] '' --> ' '", - "insert text[68:68] --> decoded_text[116:117] '' --> ' '", - "insert text[69:69] --> decoded_text[118:119] '' --> ' '", - "insert text[70:70] --> decoded_text[120:121] '' --> ' '", - "insert text[71:71] --> decoded_text[122:123] '' --> ' '", - "insert text[72:72] --> decoded_text[124:125] '' --> ' '", - "insert text[73:73] --> decoded_text[126:127] '' --> ' '", - "insert text[74:74] --> decoded_text[128:129] '' --> ' '", - "insert text[75:75] --> decoded_text[130:131] '' --> ' '", - "insert text[76:76] --> decoded_text[132:133] '' --> ' '", - "insert text[77:77] --> decoded_text[134:135] '' --> ' '", - "insert text[78:78] --> decoded_text[136:137] '' --> ' '", - "insert text[79:79] --> decoded_text[138:139] '' --> ' '", - "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", - "insert text[82:82] --> decoded_text[144:145] '' --> ' '", - "insert text[83:83] --> decoded_text[146:147] '' --> ' '", - "insert text[84:84] --> decoded_text[148:149] '' --> ' '", - "insert text[85:85] --> decoded_text[150:151] '' --> ' '", - "insert text[86:86] --> decoded_text[152:153] '' --> ' '", - "insert text[87:87] --> decoded_text[154:155] '' --> ' '", - "insert text[88:88] --> decoded_text[156:157] '' --> ' '", - "insert text[89:89] --> decoded_text[158:159] '' --> ' '", - "insert text[90:90] --> decoded_text[160:161] '' --> ' '", - "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", - "insert text[93:93] --> decoded_text[166:167] '' --> ' '", - "insert text[94:94] --> decoded_text[168:169] '' --> ' '", - "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", - "insert text[97:97] --> decoded_text[174:175] '' --> ' '", - "insert text[98:98] --> decoded_text[176:177] '' --> ' '", - "insert text[99:99] --> decoded_text[178:179] '' --> ' '", - "insert text[100:100] --> decoded_text[180:181] '' --> ' '", - "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", - "insert text[103:103] --> decoded_text[186:187] '' --> ' '", - "insert text[104:104] --> decoded_text[188:189] '' --> ' '", - "insert text[105:105] --> decoded_text[190:191] '' --> ' '", - "insert text[106:106] --> decoded_text[192:193] '' --> ' '", - "insert text[107:107] --> decoded_text[194:195] '' --> ' '", - "insert text[108:108] --> decoded_text[196:197] '' --> ' '", - "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", - "insert text[111:111] --> decoded_text[202:203] '' --> ' '", - "insert text[112:112] --> decoded_text[204:205] '' --> ' '", - "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", - "insert text[115:115] --> decoded_text[210:211] '' --> ' '", - "insert text[116:116] --> decoded_text[212:213] '' --> ' '", - "insert text[117:117] --> decoded_text[214:215] '' --> ' '", - "insert text[118:118] --> decoded_text[216:217] '' --> ' '", - "insert text[119:119] --> decoded_text[218:219] '' --> ' '", - "insert text[120:120] --> decoded_text[220:221] '' --> ' '", - "insert text[121:121] --> decoded_text[222:223] '' --> ' '", - "insert text[122:122] --> decoded_text[224:225] '' --> ' '", - "insert text[123:123] --> decoded_text[226:227] '' --> ' '", - "insert text[124:124] --> decoded_text[228:229] '' --> ' '", - "insert text[125:125] --> decoded_text[230:231] '' --> ' '", - "insert text[126:126] --> decoded_text[232:233] '' --> ' '", - "insert text[127:127] --> decoded_text[234:235] '' --> ' '", - "insert text[128:128] --> decoded_text[236:237] '' --> ' '", - "insert text[129:129] --> decoded_text[238:239] '' --> ' '", - "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", - "insert text[133:133] --> decoded_text[245:246] '' --> ' '", - "insert text[134:134] --> decoded_text[247:248] '' --> ' '", - "insert text[135:135] --> decoded_text[249:250] '' --> ' '", - "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", - "insert text[138:138] --> decoded_text[255:256] '' --> ' '", - "insert text[139:139] --> decoded_text[257:258] '' --> ' '", - "insert text[140:140] --> decoded_text[259:260] '' --> ' '", - "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", - "insert text[143:143] --> decoded_text[265:266] '' --> ' '", - "insert text[144:144] --> decoded_text[267:268] '' --> ' '", - "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", - "insert text[147:147] --> decoded_text[273:274] '' --> ' '", - "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", - "insert text[150:150] --> decoded_text[279:280] '' --> ' '", - "insert text[151:151] --> decoded_text[281:282] '' --> ' '", - "insert text[152:152] --> decoded_text[283:284] '' --> ' '", - "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", - "insert text[155:155] --> decoded_text[289:290] '' --> ' '", - "insert text[156:156] --> decoded_text[291:292] '' --> ' '", - "insert text[157:157] --> decoded_text[293:294] '' --> ' '", - "insert text[158:158] --> decoded_text[295:296] '' --> ' '", - "insert text[159:159] --> decoded_text[297:298] '' --> ' '", - "insert text[163:163] --> decoded_text[302:303] '' --> ' '", - "insert text[164:164] --> decoded_text[304:305] '' --> ' '", - "insert text[165:165] --> decoded_text[306:307] '' --> ' '", - "insert text[166:166] --> decoded_text[308:309] '' --> ' '", - "insert text[167:167] --> decoded_text[310:311] '' --> ' '", - "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", - "insert text[170:170] --> decoded_text[316:317] '' --> ' '", - "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", - "insert text[174:174] --> decoded_text[324:325] '' --> ' '", - "insert text[175:175] --> decoded_text[326:327] '' --> ' '", - "insert text[176:176] --> decoded_text[328:329] '' --> ' '", - "insert text[177:177] --> decoded_text[330:331] '' --> ' '", - "insert text[178:178] --> decoded_text[332:333] '' --> ' '", - "insert text[179:179] --> decoded_text[334:335] '' --> ' '", - "insert text[180:180] --> decoded_text[336:337] '' --> ' '", - "insert text[181:181] --> decoded_text[338:339] '' --> ' '", - "insert text[182:182] --> decoded_text[340:341] '' --> ' '", - "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", - "insert text[185:185] --> decoded_text[346:347] '' --> ' '", - "insert text[186:186] --> decoded_text[348:349] '' --> ' '", - "insert text[187:187] --> decoded_text[350:351] '' --> ' '", - "insert text[188:188] --> decoded_text[352:353] '' --> ' '", - "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", - "insert text[191:191] --> decoded_text[358:359] '' --> ' '", - "insert text[192:192] --> decoded_text[360:361] '' --> ' '", - "insert text[193:193] --> decoded_text[362:363] '' --> ' '", - "insert text[194:194] --> decoded_text[364:365] '' --> ' '", - "insert text[195:195] --> decoded_text[366:367] '' --> ' '", - "insert text[196:196] --> decoded_text[368:369] '' --> ' '", - "insert text[206:206] --> decoded_text[379:380] '' --> ' '", - "insert text[207:207] --> decoded_text[381:382] '' --> ' '", - "insert text[211:211] --> decoded_text[386:387] '' --> ' '", - "insert text[212:212] --> decoded_text[388:389] '' --> ' '", - "insert text[213:213] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '", - "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", - "insert text[89:89] --> decoded_text[177:178] '' --> ' '", - "insert text[90:90] --> decoded_text[179:180] '' --> ' '", - "insert text[91:91] --> decoded_text[181:182] '' --> ' '", - "insert text[92:92] --> decoded_text[183:184] '' --> ' '", - "insert text[93:93] --> decoded_text[185:186] '' --> ' '", - "insert text[94:94] --> decoded_text[187:188] '' --> ' '", - "insert text[95:95] --> decoded_text[189:190] '' --> ' '", - "insert text[96:96] --> decoded_text[191:192] '' --> ' '", - "insert text[97:97] --> decoded_text[193:194] '' --> ' '", - "insert text[98:98] --> decoded_text[195:196] '' --> ' '", - "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", - "insert text[101:101] --> decoded_text[201:202] '' --> ' '", - "insert text[102:102] --> decoded_text[203:204] '' --> ' '", - "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", - "insert text[105:105] --> decoded_text[209:210] '' --> ' '", - "insert text[106:106] --> decoded_text[211:212] '' --> ' '", - "insert text[107:107] --> decoded_text[213:214] '' --> ' '", - "insert text[108:108] --> decoded_text[215:216] '' --> ' '", - "insert text[109:109] --> decoded_text[217:218] '' --> ' '", - "insert text[110:110] --> decoded_text[219:220] '' --> ' '", - "insert text[111:111] --> decoded_text[221:222] '' --> ' '", - "insert text[112:112] --> decoded_text[223:224] '' --> ' '", - "insert text[113:113] --> decoded_text[225:226] '' --> ' '", - "insert text[114:114] --> decoded_text[227:228] '' --> ' '", - "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", - "insert text[117:117] --> decoded_text[233:234] '' --> ' '", - "insert text[118:118] --> decoded_text[235:236] '' --> ' '", - "insert text[119:119] --> decoded_text[237:238] '' --> ' '", - "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", - "insert text[122:122] --> decoded_text[243:244] '' --> ' '", - "insert text[123:123] --> decoded_text[245:246] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[44:44] --> decoded_text[87:88] '' --> ' '", - "insert text[45:45] --> decoded_text[89:90] '' --> ' '", - "insert text[46:46] --> decoded_text[91:92] '' --> ' '", - "insert text[47:47] --> decoded_text[93:94] '' --> ' '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "insert text[55:55] --> decoded_text[109:110] '' --> ' '", - "insert text[56:56] --> decoded_text[111:112] '' --> ' '", - "insert text[57:57] --> decoded_text[113:114] '' --> ' '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "insert text[63:63] --> decoded_text[125:126] '' --> ' '", - "insert text[64:64] --> decoded_text[127:128] '' --> ' '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "insert text[66:66] --> decoded_text[131:132] '' --> ' '", - "insert text[67:67] --> decoded_text[133:134] '' --> ' '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "insert text[70:70] --> decoded_text[139:140] '' --> ' '", - "insert text[71:71] --> decoded_text[141:142] '' --> ' '", - "insert text[72:72] --> decoded_text[143:144] '' --> ' '", - "insert text[73:73] --> decoded_text[145:146] '' --> ' '", - "insert text[74:74] --> decoded_text[147:148] '' --> ' '", - "insert text[75:75] --> decoded_text[149:150] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[38:38] --> decoded_text[75:76] '' --> ' '", - "insert text[39:39] --> decoded_text[77:78] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[41:41] --> decoded_text[81:82] '' --> ' '", - "insert text[42:42] --> decoded_text[83:84] '' --> ' '", - "insert text[43:43] --> decoded_text[85:86] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "insert text[50:50] --> decoded_text[96:97] '' --> ' '", - "insert text[51:51] --> decoded_text[98:99] '' --> ' '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "insert text[61:61] --> decoded_text[118:119] '' --> ' '", - "insert text[62:62] --> decoded_text[120:121] '' --> ' '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "insert text[70:70] --> decoded_text[136:137] '' --> ' '", - "insert text[71:71] --> decoded_text[138:139] '' --> ' '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( RingoStarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( JuliaRoberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 QueenieEye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 Photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "insert text[5:5] --> decoded_text[8:9] '' --> ' '", - "insert text[6:6] --> decoded_text[10:11] '' --> ' '", - "insert text[7:7] --> decoded_text[12:13] '' --> ' '", - "insert text[8:8] --> decoded_text[14:15] '' --> ' '", - "insert text[9:9] --> decoded_text[16:17] '' --> ' '", - "insert text[10:10] --> decoded_text[18:19] '' --> ' '", - "insert text[11:11] --> decoded_text[20:21] '' --> ' '", - "insert text[12:12] --> decoded_text[22:23] '' --> ' '", - "insert text[13:13] --> decoded_text[24:25] '' --> ' '", - "insert text[14:14] --> decoded_text[26:27] '' --> ' '", - "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", - "insert text[17:17] --> decoded_text[32:33] '' --> ' '", - "insert text[18:18] --> decoded_text[34:35] '' --> ' '", - "insert text[19:19] --> decoded_text[36:37] '' --> ' '", - "insert text[20:20] --> decoded_text[38:39] '' --> ' '", - "insert text[21:21] --> decoded_text[40:41] '' --> ' '", - "insert text[22:22] --> decoded_text[42:43] '' --> ' '", - "insert text[23:23] --> decoded_text[44:45] '' --> ' '", - "insert text[24:24] --> decoded_text[46:47] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[32:32] --> decoded_text[61:62] '' --> ' '", - "insert text[33:33] --> decoded_text[63:64] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "insert text[62:62] --> decoded_text[121:122] '' --> ' '", - "insert text[72:72] --> decoded_text[132:133] '' --> ' '", - "insert text[73:73] --> decoded_text[134:135] '' --> ' '", - "insert text[74:74] --> decoded_text[136:137] '' --> ' '", - "insert text[75:75] --> decoded_text[138:139] '' --> ' '", - "insert text[76:76] --> decoded_text[140:141] '' --> ' '", - "insert text[77:77] --> decoded_text[142:143] '' --> ' '", - "insert text[78:78] --> decoded_text[144:145] '' --> ' '", - "insert text[79:79] --> decoded_text[146:147] '' --> ' '", - "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", - "insert text[82:82] --> decoded_text[152:153] '' --> ' '", - "insert text[83:83] --> decoded_text[154:155] '' --> ' '", - "insert text[84:84] --> decoded_text[156:157] '' --> ' '", - "insert text[85:85] --> decoded_text[158:159] '' --> ' '", - "insert text[86:86] --> decoded_text[160:161] '' --> ' '", - "insert text[87:87] --> decoded_text[162:163] '' --> ' '", - "insert text[88:88] --> decoded_text[164:165] '' --> ' '", - "insert text[89:89] --> decoded_text[166:167] '' --> ' '", - "insert text[90:90] --> decoded_text[168:169] '' --> ' '", - "insert text[91:91] --> decoded_text[170:171] '' --> ' '", - "insert text[92:92] --> decoded_text[172:173] '' --> ' '", - "insert text[93:93] --> decoded_text[174:175] '' --> ' '", - "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", - "insert text[96:96] --> decoded_text[180:181] '' --> ' '", - "insert text[97:97] --> decoded_text[182:183] '' --> ' '", - "insert text[98:98] --> decoded_text[184:185] '' --> ' '", - "insert text[99:99] --> decoded_text[186:187] '' --> ' '", - "insert text[100:100] --> decoded_text[188:189] '' --> ' '", - "insert text[101:101] --> decoded_text[190:191] '' --> ' '", - "insert text[102:102] --> decoded_text[192:193] '' --> ' '", - "insert text[103:103] --> decoded_text[194:195] '' --> ' '", - "insert text[104:104] --> decoded_text[196:197] '' --> ' '", - "insert text[105:105] --> decoded_text[198:199] '' --> ' '", - "insert text[106:106] --> decoded_text[200:201] '' --> ' '", - "insert text[107:107] --> decoded_text[202:203] '' --> ' '", - "insert text[108:108] --> decoded_text[204:205] '' --> ' '", - "insert text[109:109] --> decoded_text[206:207] '' --> ' '", - "insert text[110:110] --> decoded_text[208:209] '' --> ' '", - "insert text[111:111] --> decoded_text[210:211] '' --> ' '", - "insert text[112:112] --> decoded_text[212:213] '' --> ' '", - "insert text[124:124] --> decoded_text[225:226] '' --> ' '", - "insert text[125:125] --> decoded_text[227:228] '' --> ' '", - "insert text[126:126] --> decoded_text[229:230] '' --> ' '", - "insert text[127:127] --> decoded_text[231:232] '' --> ' '", - "insert text[128:128] --> decoded_text[233:234] '' --> ' '", - "insert text[129:129] --> decoded_text[235:236] '' --> ' '", - "insert text[130:130] --> decoded_text[237:238] '' --> ' '", - "insert text[131:131] --> decoded_text[239:240] '' --> ' '", - "insert text[132:132] --> decoded_text[241:242] '' --> ' '", - "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", - "insert text[135:135] --> decoded_text[247:248] '' --> ' '", - "insert text[136:136] --> decoded_text[249:250] '' --> ' '", - "insert text[137:137] --> decoded_text[251:252] '' --> ' '", - "insert text[138:138] --> decoded_text[253:254] '' --> ' '", - "insert text[139:139] --> decoded_text[255:256] '' --> ' '", - "insert text[140:140] --> decoded_text[257:258] '' --> ' '", - "insert text[141:141] --> decoded_text[259:260] '' --> ' '", - "insert text[142:142] --> decoded_text[261:262] '' --> ' '", - "insert text[143:143] --> decoded_text[263:264] '' --> ' '", - "insert text[144:144] --> decoded_text[265:266] '' --> ' '", - "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", - "insert text[147:147] --> decoded_text[271:272] '' --> ' '", - "insert text[148:148] --> decoded_text[273:274] '' --> ' '", - "insert text[149:149] --> decoded_text[275:276] '' --> ' '", - "insert text[150:150] --> decoded_text[277:278] '' --> ' '", - "insert text[151:151] --> decoded_text[279:280] '' --> ' '", - "insert text[152:152] --> decoded_text[281:282] '' --> ' '", - "insert text[162:162] --> decoded_text[292:293] '' --> ' '", - "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", - "insert text[165:165] --> decoded_text[298:299] '' --> ' '", - "insert text[166:166] --> decoded_text[300:301] '' --> ' '", - "insert text[167:167] --> decoded_text[302:303] '' --> ' '", - "insert text[168:168] --> decoded_text[304:305] '' --> ' '", - "insert text[169:169] --> decoded_text[306:307] '' --> ' '", - "insert text[170:170] --> decoded_text[308:309] '' --> ' '", - "insert text[171:171] --> decoded_text[310:311] '' --> ' '", - "insert text[172:172] --> decoded_text[312:313] '' --> ' '", - "insert text[173:173] --> decoded_text[314:315] '' --> ' '", - "insert text[174:174] --> decoded_text[316:317] '' --> ' '", - "insert text[175:175] --> decoded_text[318:319] '' --> ' '", - "insert text[185:185] --> decoded_text[329:330] '' --> ' '", - "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", - "insert text[188:188] --> decoded_text[335:336] '' --> ' '", - "insert text[189:189] --> decoded_text[337:338] '' --> ' '", - "insert text[190:190] --> decoded_text[339:340] '' --> ' '", - "insert text[191:191] --> decoded_text[341:342] '' --> ' '", - "insert text[192:192] --> decoded_text[343:344] '' --> ' '", - "insert text[193:193] --> decoded_text[345:346] '' --> ' '", - "insert text[194:194] --> decoded_text[347:348] '' --> ' '", - "insert text[195:195] --> decoded_text[349:350] '' --> ' '", - "insert text[196:196] --> decoded_text[351:352] '' --> ' '", - "insert text[197:197] --> decoded_text[353:354] '' --> ' '", - "insert text[198:198] --> decoded_text[355:356] '' --> ' '", - "insert text[199:199] --> decoded_text[357:358] '' --> ' '", - "insert text[200:200] --> decoded_text[359:360] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[25:25] --> decoded_text[48:49] '' --> ' '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "insert text[27:27] --> decoded_text[52:53] '' --> ' '", - "insert text[28:28] --> decoded_text[54:55] '' --> ' '", - "insert text[29:29] --> decoded_text[56:57] '' --> ' '", - "insert text[30:30] --> decoded_text[58:59] '' --> ' '", - "insert text[31:31] --> decoded_text[60:61] '' --> ' '", - "insert text[32:32] --> decoded_text[62:63] '' --> ' '", - "insert text[34:34] --> decoded_text[65:66] '' --> ' '", - "insert text[35:35] --> decoded_text[67:68] '' --> ' '", - "insert text[36:36] --> decoded_text[69:70] '' --> ' '", - "insert text[37:37] --> decoded_text[71:72] '' --> ' '", - "insert text[38:38] --> decoded_text[73:74] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[54:54] --> decoded_text[105:106] '' --> ' '", - "insert text[55:55] --> decoded_text[107:108] '' --> ' '", - "insert text[56:56] --> decoded_text[109:110] '' --> ' '", - "insert text[57:57] --> decoded_text[111:112] '' --> ' '", - "insert text[58:58] --> decoded_text[113:114] '' --> ' '", - "insert text[59:59] --> decoded_text[115:116] '' --> ' '", - "insert text[60:60] --> decoded_text[117:118] '' --> ' '", - "insert text[61:61] --> decoded_text[119:120] '' --> ' '", - "insert text[62:62] --> decoded_text[121:122] '' --> ' '", - "insert text[63:63] --> decoded_text[123:124] '' --> ' '", - "insert text[64:64] --> decoded_text[125:126] '' --> ' '", - "insert text[65:65] --> decoded_text[127:128] '' --> ' '", - "insert text[66:66] --> decoded_text[129:130] '' --> ' '", - "insert text[67:67] --> decoded_text[131:132] '' --> ' '", - "insert text[68:68] --> decoded_text[133:134] '' --> ' '", - "insert text[69:69] --> decoded_text[135:136] '' --> ' '", - "insert text[70:70] --> decoded_text[137:138] '' --> ' '", - "insert text[71:71] --> decoded_text[139:140] '' --> ' '", - "insert text[72:72] --> decoded_text[141:142] '' --> ' '", - "insert text[73:73] --> decoded_text[143:144] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "insert text[77:77] --> decoded_text[150:151] '' --> ' '", - "insert text[78:78] --> decoded_text[152:153] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[11:11] --> decoded_text[18:19] '' --> ' '", - "insert text[12:12] --> decoded_text[20:21] '' --> ' '", - "insert text[13:13] --> decoded_text[22:23] '' --> ' '", - "insert text[14:14] --> decoded_text[24:25] '' --> ' '", - "insert text[15:15] --> decoded_text[26:27] '' --> ' '", - "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", - "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", - "insert text[21:21] --> decoded_text[38:39] '' --> ' '", - "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", - "insert text[24:24] --> decoded_text[44:45] '' --> ' '", - "insert text[25:25] --> decoded_text[46:47] '' --> ' '", - "insert text[26:26] --> decoded_text[48:49] '' --> ' '", - "insert text[27:27] --> decoded_text[50:51] '' --> ' '", - "insert text[28:28] --> decoded_text[52:53] '' --> ' '", - "insert text[29:29] --> decoded_text[54:55] '' --> ' '", - "insert text[30:30] --> decoded_text[56:57] '' --> ' '", - "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", - "insert text[34:34] --> decoded_text[64:65] '' --> ' '", - "insert text[35:35] --> decoded_text[66:67] '' --> ' '", - "insert text[36:36] --> decoded_text[68:69] '' --> ' '", - "insert text[37:37] --> decoded_text[70:71] '' --> ' '", - "insert text[38:38] --> decoded_text[72:73] '' --> ' '", - "insert text[39:39] --> decoded_text[74:75] '' --> ' '", - "insert text[40:40] --> decoded_text[76:77] '' --> ' '", - "insert text[41:41] --> decoded_text[78:79] '' --> ' '", - "insert text[42:42] --> decoded_text[80:81] '' --> ' '", - "insert text[43:43] --> decoded_text[82:83] '' --> ' '", - "insert text[44:44] --> decoded_text[84:85] '' --> ' '", - "insert text[45:45] --> decoded_text[86:87] '' --> ' '", - "insert text[46:46] --> decoded_text[88:89] '' --> ' '", - "insert text[47:47] --> decoded_text[90:91] '' --> ' '", - "insert text[48:48] --> decoded_text[92:93] '' --> ' '", - "insert text[49:49] --> decoded_text[94:95] '' --> ' '", - "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", - "insert text[52:52] --> decoded_text[100:101] '' --> ' '", - "insert text[53:53] --> decoded_text[102:103] '' --> ' '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "insert text[55:55] --> decoded_text[106:107] '' --> ' '", - "insert text[56:56] --> decoded_text[108:109] '' --> ' '", - "insert text[57:57] --> decoded_text[110:111] '' --> ' '", - "insert text[58:58] --> decoded_text[112:113] '' --> ' '", - "insert text[59:59] --> decoded_text[114:115] '' --> ' '", - "insert text[60:60] --> decoded_text[116:117] '' --> ' '", - "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", - "insert text[63:63] --> decoded_text[122:123] '' --> ' '", - "insert text[64:64] --> decoded_text[124:125] '' --> ' '", - "insert text[65:65] --> decoded_text[126:127] '' --> ' '", - "insert text[66:66] --> decoded_text[128:129] '' --> ' '", - "insert text[67:67] --> decoded_text[130:131] '' --> ' '", - "insert text[68:68] --> decoded_text[132:133] '' --> ' '", - "insert text[69:69] --> decoded_text[134:135] '' --> ' '", - "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", - "insert text[72:72] --> decoded_text[140:141] '' --> ' '", - "insert text[73:73] --> decoded_text[142:143] '' --> ' '", - "insert text[74:74] --> decoded_text[144:145] '' --> ' '", - "insert text[75:75] --> decoded_text[146:147] '' --> ' '", - "insert text[76:76] --> decoded_text[148:149] '' --> ' '", - "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", - "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", - "insert text[83:83] --> decoded_text[162:163] '' --> ' '", - "insert text[84:84] --> decoded_text[164:165] '' --> ' '", - "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", - "insert text[87:87] --> decoded_text[170:171] '' --> ' '", - "insert text[88:88] --> decoded_text[172:173] '' --> ' '", - "insert text[89:89] --> decoded_text[174:175] '' --> ' '", - "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", - "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", - "insert text[96:96] --> decoded_text[188:189] '' --> ' '", - "insert text[97:97] --> decoded_text[190:191] '' --> ' '", - "insert text[98:98] --> decoded_text[192:193] '' --> ' '", - "insert text[99:99] --> decoded_text[194:195] '' --> ' '", - "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", - "insert text[102:102] --> decoded_text[200:201] '' --> ' '", - "insert text[103:103] --> decoded_text[202:203] '' --> ' '", - "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", - "insert text[109:109] --> decoded_text[214:215] '' --> ' '", - "insert text[110:110] --> decoded_text[216:217] '' --> ' '", - "insert text[111:111] --> decoded_text[218:219] '' --> ' '", - "insert text[112:112] --> decoded_text[220:221] '' --> ' '", - "insert text[113:113] --> decoded_text[222:223] '' --> ' '", - "insert text[114:114] --> decoded_text[224:225] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", - "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", - "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", - "insert text[48:48] --> decoded_text[95:96] '' --> ' '", - "insert text[49:49] --> decoded_text[97:98] '' --> ' '", - "insert text[50:50] --> decoded_text[99:100] '' --> ' '", - "insert text[51:51] --> decoded_text[101:102] '' --> ' '", - "insert text[52:52] --> decoded_text[103:104] '' --> ' '", - "insert text[53:53] --> decoded_text[105:106] '' --> ' '", - "insert text[54:54] --> decoded_text[107:108] '' --> ' '", - "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", - "insert text[58:58] --> decoded_text[115:116] '' --> ' '", - "insert text[59:59] --> decoded_text[117:118] '' --> ' '", - "insert text[60:60] --> decoded_text[119:120] '' --> ' '", - "insert text[61:61] --> decoded_text[121:122] '' --> ' '", - "insert text[62:62] --> decoded_text[123:124] '' --> ' '", - "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", - "insert text[65:65] --> decoded_text[129:130] '' --> ' '", - "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", - "insert text[68:68] --> decoded_text[135:136] '' --> ' '", - "insert text[69:69] --> decoded_text[137:138] '' --> ' '", - "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", - "insert text[72:72] --> decoded_text[147:148] '' --> ' '", - "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", - "insert text[75:75] --> decoded_text[153:154] '' --> ' '", - "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", - "insert text[78:78] --> decoded_text[159:160] '' --> ' '", - "insert text[79:79] --> decoded_text[161:162] '' --> ' '", - "insert text[80:80] --> decoded_text[163:164] '' --> ' '", - "insert text[81:81] --> decoded_text[165:166] '' --> ' '", - "insert text[82:82] --> decoded_text[167:168] '' --> ' '", - "insert text[83:83] --> decoded_text[169:170] '' --> ' '", - "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", - "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", - "insert text[88:88] --> decoded_text[179:180] '' --> ' '", - "insert text[89:89] --> decoded_text[181:182] '' --> ' '", - "insert text[90:90] --> decoded_text[183:184] '' --> ' '", - "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", - "insert text[94:94] --> decoded_text[191:192] '' --> ' '", - "insert text[95:95] --> decoded_text[193:194] '' --> ' '", - "insert text[96:96] --> decoded_text[195:196] '' --> ' '", - "insert text[97:97] --> decoded_text[197:198] '' --> ' '", - "insert text[98:98] --> decoded_text[199:200] '' --> ' '", - "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", - "insert text[102:102] --> decoded_text[207:208] '' --> ' '", - "insert text[103:103] --> decoded_text[209:210] '' --> ' '", - "insert text[104:104] --> decoded_text[211:212] '' --> ' '", - "insert text[105:105] --> decoded_text[213:214] '' --> ' '", - "insert text[106:106] --> decoded_text[215:216] '' --> ' '", - "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", - "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", - "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", - "insert text[116:116] --> decoded_text[239:240] '' --> ' '", - "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", - "insert text[119:119] --> decoded_text[245:246] '' --> ' '", - "insert text[120:120] --> decoded_text[247:248] '' --> ' '", - "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", - "insert text[123:123] --> decoded_text[253:254] '' --> ' '", - "insert text[124:124] --> decoded_text[255:256] '' --> ' '", - "insert text[125:125] --> decoded_text[257:258] '' --> ' '", - "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", - "insert text[132:132] --> decoded_text[271:272] '' --> ' '", - "insert text[133:133] --> decoded_text[273:274] '' --> ' '", - "insert text[134:134] --> decoded_text[275:276] '' --> ' '", - "insert text[135:135] --> decoded_text[277:278] '' --> ' '", - "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.014598540145985401, - "oov_charset": "[\"“\", \"”\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 [UNK] 眼 , 将 近 2 万 元 就 出 去 了 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[3:3] --> decoded_text[5:6] '' --> ' '", - "insert text[4:4] --> decoded_text[7:8] '' --> ' '", - "insert text[5:5] --> decoded_text[9:10] '' --> ' '", - "insert text[6:6] --> decoded_text[11:12] '' --> ' '", - "insert text[7:7] --> decoded_text[13:14] '' --> ' '", - "insert text[8:8] --> decoded_text[15:16] '' --> ' '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[13:13] --> decoded_text[25:26] '' --> ' '", - "insert text[14:14] --> decoded_text[27:28] '' --> ' '", - "insert text[15:15] --> decoded_text[29:30] '' --> ' '", - "insert text[16:16] --> decoded_text[31:32] '' --> ' '", - "insert text[17:17] --> decoded_text[33:34] '' --> ' '", - "insert text[18:18] --> decoded_text[35:36] '' --> ' '", - "insert text[19:19] --> decoded_text[37:38] '' --> ' '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "insert text[21:21] --> decoded_text[41:42] '' --> ' '", - "insert text[22:22] --> decoded_text[43:44] '' --> ' '", - "insert text[23:23] --> decoded_text[45:46] '' --> ' '", - "insert text[24:24] --> decoded_text[47:48] '' --> ' '", - "insert text[25:25] --> decoded_text[49:50] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[27:27] --> decoded_text[53:54] '' --> ' '", - "insert text[28:28] --> decoded_text[55:56] '' --> ' '", - "insert text[29:29] --> decoded_text[57:58] '' --> ' '", - "insert text[30:30] --> decoded_text[59:60] '' --> ' '", - "insert text[31:31] --> decoded_text[61:62] '' --> ' '", - "insert text[32:32] --> decoded_text[63:64] '' --> ' '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "insert text[34:34] --> decoded_text[67:68] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[39:39] --> decoded_text[75:76] '' --> ' '", - "insert text[40:40] --> decoded_text[77:78] '' --> ' '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[43:43] --> decoded_text[83:84] '' --> ' '", - "insert text[44:44] --> decoded_text[85:86] '' --> ' '", - "insert text[45:45] --> decoded_text[87:88] '' --> ' '", - "insert text[46:46] --> decoded_text[89:90] '' --> ' '", - "insert text[47:47] --> decoded_text[91:92] '' --> ' '", - "insert text[48:48] --> decoded_text[93:94] '' --> ' '", - "insert text[49:49] --> decoded_text[95:96] '' --> ' '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "insert text[51:51] --> decoded_text[99:100] '' --> ' '", - "insert text[52:52] --> decoded_text[101:102] '' --> ' '", - "insert text[53:53] --> decoded_text[103:104] '' --> ' '", - "insert text[56:56] --> decoded_text[107:108] '' --> ' '", - "insert text[57:57] --> decoded_text[109:110] '' --> ' '", - "insert text[58:58] --> decoded_text[111:112] '' --> ' '", - "insert text[59:59] --> decoded_text[113:114] '' --> ' '", - "insert text[60:60] --> decoded_text[115:116] '' --> ' '", - "insert text[61:61] --> decoded_text[117:118] '' --> ' '", - "insert text[62:62] --> decoded_text[119:120] '' --> ' '", - "insert text[63:63] --> decoded_text[121:122] '' --> ' '", - "insert text[64:64] --> decoded_text[123:124] '' --> ' '", - "insert text[65:65] --> decoded_text[125:126] '' --> ' '", - "insert text[66:66] --> decoded_text[127:128] '' --> ' '", - "insert text[67:67] --> decoded_text[129:130] '' --> ' '", - "insert text[68:68] --> decoded_text[131:132] '' --> ' '", - "insert text[69:69] --> decoded_text[133:134] '' --> ' '", - "insert text[70:70] --> decoded_text[135:136] '' --> ' '", - "insert text[71:71] --> decoded_text[137:138] '' --> ' '", - "insert text[72:72] --> decoded_text[139:140] '' --> ' '", - "insert text[73:73] --> decoded_text[141:142] '' --> ' '", - "replace text[74:75] --> decoded_text[143:150] '睁' --> ' [UNK] '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "insert text[77:77] --> decoded_text[153:154] '' --> ' '", - "insert text[78:78] --> decoded_text[155:156] '' --> ' '", - "insert text[79:79] --> decoded_text[157:158] '' --> ' '", - "insert text[80:80] --> decoded_text[159:160] '' --> ' '", - "insert text[81:81] --> decoded_text[161:162] '' --> ' '", - "insert text[82:82] --> decoded_text[163:164] '' --> ' '", - "insert text[83:83] --> decoded_text[165:166] '' --> ' '", - "insert text[84:84] --> decoded_text[167:168] '' --> ' '", - "insert text[85:85] --> decoded_text[169:170] '' --> ' '", - "insert text[86:86] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011494252873563218, - "oov_charset": "[\"睁\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", - "diff": [ - "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", - "insert text[2:2] --> decoded_text[7:8] '' --> ' '", - "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", - "insert text[5:5] --> decoded_text[13:14] '' --> ' '", - "insert text[6:6] --> decoded_text[15:16] '' --> ' '", - "insert text[7:7] --> decoded_text[17:18] '' --> ' '", - "insert text[8:8] --> decoded_text[19:20] '' --> ' '", - "insert text[9:9] --> decoded_text[21:22] '' --> ' '", - "insert text[10:10] --> decoded_text[23:24] '' --> ' '", - "insert text[11:11] --> decoded_text[25:26] '' --> ' '", - "insert text[12:12] --> decoded_text[27:28] '' --> ' '", - "insert text[13:13] --> decoded_text[29:30] '' --> ' '", - "insert text[14:14] --> decoded_text[31:32] '' --> ' '", - "insert text[15:15] --> decoded_text[33:34] '' --> ' '", - "insert text[16:16] --> decoded_text[35:36] '' --> ' '", - "insert text[17:17] --> decoded_text[37:38] '' --> ' '", - "insert text[18:18] --> decoded_text[39:40] '' --> ' '", - "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", - "insert text[21:21] --> decoded_text[49:50] '' --> ' '", - "insert text[22:22] --> decoded_text[51:52] '' --> ' '", - "insert text[23:23] --> decoded_text[53:54] '' --> ' '", - "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", - "insert text[27:27] --> decoded_text[65:66] '' --> ' '", - "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", - "insert text[30:30] --> decoded_text[71:72] '' --> ' '", - "insert text[31:31] --> decoded_text[73:74] '' --> ' '", - "insert text[32:32] --> decoded_text[75:76] '' --> ' '", - "insert text[33:33] --> decoded_text[77:78] '' --> ' '", - "insert text[34:34] --> decoded_text[79:80] '' --> ' '", - "insert text[35:35] --> decoded_text[81:82] '' --> ' '", - "insert text[36:36] --> decoded_text[83:84] '' --> ' '", - "insert text[37:37] --> decoded_text[85:86] '' --> ' '", - "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", - "insert text[41:41] --> decoded_text[93:94] '' --> ' '", - "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", - "insert text[44:44] --> decoded_text[99:100] '' --> ' '", - "insert text[45:45] --> decoded_text[101:102] '' --> ' '", - "insert text[46:46] --> decoded_text[103:104] '' --> ' '", - "insert text[47:47] --> decoded_text[105:106] '' --> ' '", - "insert text[48:48] --> decoded_text[107:108] '' --> ' '", - "insert text[49:49] --> decoded_text[109:110] '' --> ' '", - "insert text[50:50] --> decoded_text[111:112] '' --> ' '", - "insert text[51:51] --> decoded_text[113:114] '' --> ' '", - "insert text[52:52] --> decoded_text[115:116] '' --> ' '", - "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", - "insert text[55:55] --> decoded_text[121:122] '' --> ' '", - "insert text[56:56] --> decoded_text[123:124] '' --> ' '", - "insert text[57:57] --> decoded_text[125:126] '' --> ' '", - "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", - "insert text[60:60] --> decoded_text[131:132] '' --> ' '", - "insert text[61:61] --> decoded_text[133:134] '' --> ' '", - "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", - "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", - "insert text[67:67] --> decoded_text[145:146] '' --> ' '", - "insert text[68:68] --> decoded_text[147:148] '' --> ' '", - "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", - "insert text[71:71] --> decoded_text[153:154] '' --> ' '", - "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", - "insert text[74:74] --> decoded_text[163:164] '' --> ' '", - "insert text[75:75] --> decoded_text[165:166] '' --> ' '", - "insert text[76:76] --> decoded_text[167:168] '' --> ' '", - "insert text[77:77] --> decoded_text[169:170] '' --> ' '", - "insert text[78:78] --> decoded_text[171:172] '' --> ' '", - "insert text[79:79] --> decoded_text[173:174] '' --> ' '", - "insert text[80:80] --> decoded_text[175:176] '' --> ' '", - "insert text[81:81] --> decoded_text[177:178] '' --> ' '", - "insert text[82:82] --> decoded_text[179:180] '' --> ' '", - "insert text[83:83] --> decoded_text[181:182] '' --> ' '", - "insert text[84:84] --> decoded_text[183:184] '' --> ' '", - "insert text[85:85] --> decoded_text[185:186] '' --> ' '", - "insert text[86:86] --> decoded_text[187:188] '' --> ' '", - "insert text[87:87] --> decoded_text[189:190] '' --> ' '", - "insert text[88:88] --> decoded_text[191:192] '' --> ' '", - "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", - "insert text[91:91] --> decoded_text[197:198] '' --> ' '", - "insert text[92:92] --> decoded_text[199:200] '' --> ' '", - "insert text[93:93] --> decoded_text[201:202] '' --> ' '", - "insert text[94:94] --> decoded_text[203:204] '' --> ' '", - "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", - "insert text[97:97] --> decoded_text[209:210] '' --> ' '", - "insert text[98:98] --> decoded_text[211:212] '' --> ' '", - "insert text[99:99] --> decoded_text[213:214] '' --> ' '", - "insert text[100:100] --> decoded_text[215:216] '' --> ' '", - "insert text[101:101] --> decoded_text[217:218] '' --> ' '", - "insert text[102:102] --> decoded_text[219:220] '' --> ' '", - "insert text[103:103] --> decoded_text[221:222] '' --> ' '", - "insert text[104:104] --> decoded_text[223:224] '' --> ' '", - "insert text[105:105] --> decoded_text[225:226] '' --> ' '", - "insert text[106:106] --> decoded_text[227:228] '' --> ' '", - "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", - "insert text[109:109] --> decoded_text[233:234] '' --> ' '", - "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", - "insert text[113:113] --> decoded_text[241:242] '' --> ' '", - "insert text[114:114] --> decoded_text[243:244] '' --> ' '", - "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", - "insert text[117:117] --> decoded_text[253:254] '' --> ' '", - "insert text[118:118] --> decoded_text[255:256] '' --> ' '", - "insert text[119:119] --> decoded_text[257:258] '' --> ' '", - "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", - "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", - "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", - "insert text[127:127] --> decoded_text[285:286] '' --> ' '", - "insert text[128:128] --> decoded_text[287:288] '' --> ' '", - "insert text[129:129] --> decoded_text[289:290] '' --> ' '", - "insert text[130:130] --> decoded_text[291:292] '' --> ' '", - "insert text[131:131] --> decoded_text[293:294] '' --> ' '" - ], - "n_oov_chars": 8, - "oov_ratio": 0.06060606060606061, - "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4S 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", + "insert text[133:133] --> decoded_text[245:246] '' --> ' '", + "insert text[134:134] --> decoded_text[247:248] '' --> ' '", + "insert text[135:135] --> decoded_text[249:250] '' --> ' '", + "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", + "insert text[138:138] --> decoded_text[255:256] '' --> ' '", + "insert text[139:139] --> decoded_text[257:258] '' --> ' '", + "insert text[140:140] --> decoded_text[259:260] '' --> ' '", + "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[265:266] '' --> ' '", + "insert text[144:144] --> decoded_text[267:268] '' --> ' '", + "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[273:274] '' --> ' '", + "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", + "insert text[150:150] --> decoded_text[279:280] '' --> ' '", + "insert text[151:151] --> decoded_text[281:282] '' --> ' '", + "insert text[152:152] --> decoded_text[283:284] '' --> ' '", + "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[289:290] '' --> ' '", + "insert text[156:156] --> decoded_text[291:292] '' --> ' '", + "insert text[157:157] --> decoded_text[293:294] '' --> ' '", + "insert text[158:158] --> decoded_text[295:296] '' --> ' '", + "insert text[159:159] --> decoded_text[297:298] '' --> ' '", + "insert text[163:163] --> decoded_text[302:303] '' --> ' '", + "insert text[164:164] --> decoded_text[304:305] '' --> ' '", + "insert text[165:165] --> decoded_text[306:307] '' --> ' '", + "insert text[166:166] --> decoded_text[308:309] '' --> ' '", + "insert text[167:167] --> decoded_text[310:311] '' --> ' '", + "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", + "insert text[170:170] --> decoded_text[316:317] '' --> ' '", + "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[324:325] '' --> ' '", + "insert text[175:175] --> decoded_text[326:327] '' --> ' '", + "insert text[176:176] --> decoded_text[328:329] '' --> ' '", + "insert text[177:177] --> decoded_text[330:331] '' --> ' '", + "insert text[178:178] --> decoded_text[332:333] '' --> ' '", + "insert text[179:179] --> decoded_text[334:335] '' --> ' '", + "insert text[180:180] --> decoded_text[336:337] '' --> ' '", + "insert text[181:181] --> decoded_text[338:339] '' --> ' '", + "insert text[182:182] --> decoded_text[340:341] '' --> ' '", + "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", + "insert text[185:185] --> decoded_text[346:347] '' --> ' '", + "insert text[186:186] --> decoded_text[348:349] '' --> ' '", + "insert text[187:187] --> decoded_text[350:351] '' --> ' '", + "insert text[188:188] --> decoded_text[352:353] '' --> ' '", + "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[358:359] '' --> ' '", + "insert text[192:192] --> decoded_text[360:361] '' --> ' '", + "insert text[193:193] --> decoded_text[362:363] '' --> ' '", + "insert text[194:194] --> decoded_text[364:365] '' --> ' '", + "insert text[195:195] --> decoded_text[366:367] '' --> ' '", + "insert text[196:196] --> decoded_text[368:369] '' --> ' '", + "insert text[206:206] --> decoded_text[379:380] '' --> ' '", + "insert text[207:207] --> decoded_text[381:382] '' --> ' '", + "insert text[211:211] --> decoded_text[386:387] '' --> ' '", + "insert text[212:212] --> decoded_text[388:389] '' --> ' '", + "insert text[213:213] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( RingoStarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( JuliaRoberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 QueenieEye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 Photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "insert text[112:112] --> decoded_text[212:213] '' --> ' '", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "insert text[152:152] --> decoded_text[281:282] '' --> ' '", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "insert text[175:175] --> decoded_text[318:319] '' --> ' '", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 [UNK] 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "replace text[74:75] --> decoded_text[143:150] '睁' --> ' [UNK] '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "insert text[84:84] --> decoded_text[167:168] '' --> ' '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json index 5d8eb47c6425470309be552e986a6c2ca06970be..cdd40982fa491ef46bebeb9607f896cd911a4845 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json @@ -1,163 +1,163 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" - ], - "n_oov_chars": 9, - "oov_ratio": 0.03461538461538462, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "[UNK] within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", - "diff": [ - "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", - "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", - "insert text[53:53] --> decoded_text[64:65] '' --> ' '", - "insert text[66:66] --> decoded_text[78:79] '' --> ' '", - "insert text[79:79] --> decoded_text[92:93] '' --> ' '", - "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", - "replace text[156:175] --> decoded_text[175:194] 'Christa Frosch of S' --> 'christa frosch of s'", - "replace text[181:191] --> decoded_text[200:216] '’s tells B' --> ' [UNK] s tells b'", - "replace text[194:195] --> decoded_text[219:220] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[223:224] 'N' --> 'n'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.054187192118226604, - "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "insert text[340:340] --> decoded_text[345:346] '' --> ' '", - "insert text[376:376] --> decoded_text[382:383] '' --> ' '", - "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.015424164524421594, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "[UNK] we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", - "diff": [ - "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", - "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", - "replace text[60:61] --> decoded_text[71:72] 'S' --> 's'", - "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", - "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", - "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'", - "replace text[116:117] --> decoded_text[144:145] 'F' --> 'f'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.06504065040650407, - "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", - "insert text[57:57] --> decoded_text[63:64] '' --> ' '", - "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", - "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", - "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.02109704641350211, - "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[156:175] --> decoded_text[175:194] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[181:191] --> decoded_text[200:216] '’s tells B' --> ' [UNK] s tells b'", + "replace text[194:195] --> decoded_text[219:220] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[223:224] 'N' --> 'n'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.054187192118226604, + "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[71:72] 'S' --> 's'", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'", + "replace text[116:117] --> decoded_text[144:145] 'F' --> 'f'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06504065040650407, + "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.02109704641350211, + "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json index d54201f9a79b49121401230064fece83ff7e6693..b409db94010b1e94380545f5ace2d068df2911aa 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json @@ -1,132 +1,132 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", - "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[19:20] '' --> ' '", - "insert text[16:16] --> decoded_text[21:22] '' --> ' '", - "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.06349206349206349, - "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json index 6c12c1388eb6aa809e6330a8e32781424dce53a1..2b710ca03e93e416bfc5d6fd56da62a990a44d97 100644 --- a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json @@ -1,172 +1,172 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", - "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[20:20] --> decoded_text[22:23] '' --> ' '", - "insert text[53:53] --> decoded_text[56:57] '' --> ' '", - "insert text[66:66] --> decoded_text[70:71] '' --> ' '", - "insert text[79:79] --> decoded_text[84:85] '' --> ' '", - "insert text[140:140] --> decoded_text[146:147] '' --> ' '", - "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", - "insert text[181:181] --> decoded_text[188:189] '' --> ' '", - "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", - "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", - "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", - "insert text[381:381] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[42:42] --> decoded_text[44:45] '' --> ' '", - "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", - "insert text[67:67] --> decoded_text[70:71] '' --> ' '", - "insert text[68:68] --> decoded_text[72:73] '' --> ' '", - "insert text[76:76] --> decoded_text[81:82] '' --> ' '", - "insert text[77:77] --> decoded_text[83:84] '' --> ' '", - "insert text[109:109] --> decoded_text[116:117] '' --> ' '", - "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "insert text[18:18] --> decoded_text[18:19] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '", - "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", - "insert text[139:139] --> decoded_text[146:147] '' --> ' '", - "insert text[140:140] --> decoded_text[148:149] '' --> ' '", - "insert text[144:144] --> decoded_text[153:154] '' --> ' '", - "insert text[145:145] --> decoded_text[155:156] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json index a41364ca331616aa48c554033ea4b69ffc857be7..4f68fa613094070d67ebecbb3918e1dd30fad07a 100644 --- a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json @@ -1,131 +1,131 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '", - "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.047619047619047616, - "oov_charset": "[\"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json index 8056b5e75dba62bb871805ce7457a17922569cbe..451b3c26db951edaec310ca4892695f106d2aa73 100644 --- a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json @@ -1,484 +1,484 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] 代 [UNK] [UNK] 4s [UNK] [UNK] [UNK] , [UNK] 内 [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 元 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", - "diff": [ - "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[55:56] '' --> ' '", - "insert text[14:14] --> decoded_text[60:61] '' --> ' '", - "insert text[26:26] --> decoded_text[73:74] '' --> ' '", - "insert text[29:29] --> decoded_text[77:78] '' --> ' '", - "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", - "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[41:41] --> decoded_text[122:123] '' --> ' '", - "insert text[42:42] --> decoded_text[124:125] '' --> ' '", - "replace text[43:48] --> decoded_text[126:157] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[158:159] '' --> ' '", - "replace text[50:55] --> decoded_text[160:191] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[56:57] --> decoded_text[192:199] '职' --> ' [UNK] '", - "replace text[58:61] --> decoded_text[200:219] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[220:221] '' --> ' '", - "replace text[63:67] --> decoded_text[222:247] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[68:71] --> decoded_text[248:267] '际市场' --> ' [UNK] [UNK] [UNK] '", - "replace text[72:75] --> decoded_text[268:287] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[76:79] --> decoded_text[288:307] '路虎以' --> ' [UNK] [UNK] [UNK] '", - "insert text[80:80] --> decoded_text[308:309] '' --> ' '", - "replace text[81:83] --> decoded_text[310:323] '业务' --> ' [UNK] [UNK] '", - "replace text[84:88] --> decoded_text[324:349] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[89:89] --> decoded_text[350:351] '' --> ' '", - "insert text[90:90] --> decoded_text[352:353] '' --> ' '", - "insert text[91:91] --> decoded_text[354:355] '' --> ' '", - "replace text[92:94] --> decoded_text[356:369] '毕业' --> ' [UNK] [UNK] '", - "insert text[95:95] --> decoded_text[370:371] '' --> ' '", - "replace text[96:103] --> decoded_text[372:415] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[104:104] --> decoded_text[416:417] '' --> ' '", - "insert text[105:105] --> decoded_text[418:419] '' --> ' '", - "replace text[106:107] --> decoded_text[420:427] '资' --> ' [UNK] '", - "insert text[108:108] --> decoded_text[428:429] '' --> ' '", - "insert text[109:109] --> decoded_text[430:431] '' --> ' '", - "insert text[110:110] --> decoded_text[432:433] '' --> ' '", - "replace text[111:112] --> decoded_text[434:441] '近' --> ' [UNK] '", - "insert text[113:113] --> decoded_text[442:443] '' --> ' '", - "replace text[114:121] --> decoded_text[444:487] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[122:122] --> decoded_text[488:489] '' --> ' '", - "replace text[123:125] --> decoded_text[490:503] '传奇' --> ' [UNK] [UNK] '", - "insert text[126:126] --> decoded_text[504:505] '' --> ' '", - "replace text[127:128] --> decoded_text[506:513] '现' --> ' [UNK] '", - "replace text[129:131] --> decoded_text[514:527] '汽车' --> ' [UNK] [UNK] '", - "replace text[132:136] --> decoded_text[528:548] 'S店得知' --> 's [UNK] [UNK] [UNK] '", - "replace text[137:138] --> decoded_text[549:556] '店' --> ' [UNK] '", - "replace text[139:143] --> decoded_text[557:582] '朗动车型' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[144:148] --> decoded_text[583:608] '现车供应' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[149:158] --> decoded_text[609:664] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[159:159] --> decoded_text[665:666] '' --> ' '", - "insert text[163:163] --> decoded_text[670:671] '' --> ' '", - "replace text[164:168] --> decoded_text[672:697] '优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[169:171] --> decoded_text[698:711] '具体' --> ' [UNK] [UNK] '", - "replace text[172:174] --> decoded_text[712:725] '车型' --> ' [UNK] [UNK] '", - "replace text[175:181] --> decoded_text[726:763] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[182:183] --> decoded_text[764:771] '表' --> ' [UNK] '", - "insert text[184:184] --> decoded_text[772:773] '' --> ' '", - "replace text[185:189] --> decoded_text[774:799] '时感兴趣' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[190:196] --> decoded_text[800:837] '朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[206:207] --> decoded_text[847:854] '转' --> ' [UNK] '", - "replace text[211:213] --> decoded_text[858:871] '详询' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 121, - "oov_ratio": 0.5654205607476636, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"S\", \"店\", \"得\", \"知\", \"朗\", \"动\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 幸 福 [UNK] [UNK] [UNK] 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 的 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] 的 [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", - "diff": [ - "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[21:22] '' --> ' '", - "insert text[6:6] --> decoded_text[23:24] '' --> ' '", - "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", - "insert text[9:9] --> decoded_text[33:34] '' --> ' '", - "insert text[10:10] --> decoded_text[35:36] '' --> ' '", - "replace text[11:14] --> decoded_text[37:56] '终点站' --> ' [UNK] [UNK] [UNK] '", - "insert text[15:15] --> decoded_text[57:58] '' --> ' '", - "replace text[16:19] --> decoded_text[59:78] '案例令' --> ' [UNK] [UNK] [UNK] '", - "insert text[20:20] --> decoded_text[79:80] '' --> ' '", - "replace text[21:27] --> decoded_text[81:118] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[28:35] --> decoded_text[119:162] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[36:38] --> decoded_text[163:176] '由于' --> ' [UNK] [UNK] '", - "insert text[39:39] --> decoded_text[177:178] '' --> ' '", - "replace text[40:48] --> decoded_text[179:228] '未能仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[49:51] --> decoded_text[229:242] '效期' --> ' [UNK] [UNK] '", - "insert text[52:52] --> decoded_text[243:244] '' --> ' '", - "replace text[53:60] --> decoded_text[245:288] '对赴俄罗斯旅游' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[61:61] --> decoded_text[289:290] '' --> ' '", - "insert text[62:62] --> decoded_text[291:292] '' --> ' '", - "insert text[63:63] --> decoded_text[293:294] '' --> ' '", - "replace text[64:79] --> decoded_text[295:386] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[80:83] --> decoded_text[387:406] '在胡滨' --> ' [UNK] [UNK] [UNK] '", - "replace text[84:86] --> decoded_text[407:420] '协助' --> ' [UNK] [UNK] '", - "insert text[87:87] --> decoded_text[421:422] '' --> ' '", - "replace text[88:90] --> decoded_text[423:436] '这对' --> ' [UNK] [UNK] '", - "replace text[91:96] --> decoded_text[437:468] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:99] --> decoded_text[469:482] '动魄' --> ' [UNK] [UNK] '", - "replace text[100:101] --> decoded_text[483:490] '3' --> ' [UNK] '", - "replace text[102:103] --> decoded_text[491:498] '时' --> ' [UNK] '", - "replace text[104:111] --> decoded_text[499:542] '终于在飞机起飞' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[112:113] --> decoded_text[543:550] '5' --> ' [UNK] '", - "replace text[114:115] --> decoded_text[551:558] '钟' --> ' [UNK] '", - "replace text[116:117] --> decoded_text[559:566] '登' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[567:580] '返程' --> ' [UNK] [UNK] '", - "replace text[121:123] --> decoded_text[581:594] '航班' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 87, - "oov_ratio": 0.7016129032258065, - "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"终\", \"点\", \"站\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 德 江 [UNK] [UNK] [UNK] 中 [UNK] 示 , 中 法 [UNK] [UNK] [UNK] [UNK] [UNK] 中 法 [UNK] [UNK] [UNK] 大 国 家 [UNK] [UNK] [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 [UNK] 不 同 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", - "diff": [ - "replace text[0:8] --> decoded_text[0:48] '招财带什么佛牌张' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[9:9] --> decoded_text[49:50] '' --> ' '", - "replace text[10:13] --> decoded_text[51:70] '在致辞' --> ' [UNK] [UNK] [UNK] '", - "replace text[14:15] --> decoded_text[71:78] '表' --> ' [UNK] '", - "insert text[16:16] --> decoded_text[79:80] '' --> ' '", - "insert text[17:17] --> decoded_text[81:82] '' --> ' '", - "insert text[18:18] --> decoded_text[83:84] '' --> ' '", - "replace text[19:24] --> decoded_text[85:116] '建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[117:118] '' --> ' '", - "replace text[26:29] --> decoded_text[119:138] '两个伟' --> ' [UNK] [UNK] [UNK] '", - "insert text[30:30] --> decoded_text[139:140] '' --> ' '", - "insert text[31:31] --> decoded_text[141:142] '' --> ' '", - "replace text[32:36] --> decoded_text[143:168] '友好关系' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[37:37] --> decoded_text[169:170] '' --> ' '", - "replace text[38:39] --> decoded_text[171:178] '纪' --> ' [UNK] '", - "insert text[40:40] --> decoded_text[179:180] '' --> ' '", - "replace text[41:42] --> decoded_text[181:188] '树' --> ' [UNK] '", - "replace text[43:44] --> decoded_text[189:196] '了' --> ' [UNK] '", - "insert text[45:45] --> decoded_text[197:198] '' --> ' '", - "insert text[46:46] --> decoded_text[199:200] '' --> ' '", - "insert text[47:47] --> decoded_text[201:202] '' --> ' '", - "replace text[48:50] --> decoded_text[203:216] '制度' --> ' [UNK] [UNK] '", - "insert text[51:51] --> decoded_text[217:218] '' --> ' '", - "insert text[52:52] --> decoded_text[219:220] '' --> ' '", - "insert text[53:53] --> decoded_text[221:222] '' --> ' '", - "replace text[54:56] --> decoded_text[223:236] '共处' --> ' [UNK] [UNK] '", - "insert text[57:57] --> decoded_text[237:238] '' --> ' '", - "replace text[58:60] --> decoded_text[239:252] '典范' --> ' [UNK] [UNK] '", - "replace text[61:62] --> decoded_text[253:260] '对' --> ' [UNK] '", - "replace text[63:69] --> decoded_text[261:298] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[70:72] --> decoded_text[299:312] '了重' --> ' [UNK] [UNK] '", - "replace text[73:76] --> decoded_text[313:332] '而深远' --> ' [UNK] [UNK] [UNK] '", - "replace text[77:79] --> decoded_text[333:346] '影响' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 47, - "oov_ratio": 0.5875, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"在\", \"致\", \"辞\", \"表\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"友\", \"好\", \"关\", \"系\", \"纪\", \"树\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 英 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] 成 [UNK] [UNK] 合 国 [UNK] [UNK] 帝 [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] 帝 [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", - "diff": [ - "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[12:12] --> decoded_text[67:68] '' --> ' '", - "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", - "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", - "insert text[31:31] --> decoded_text[161:162] '' --> ' '", - "insert text[32:32] --> decoded_text[163:164] '' --> ' '", - "insert text[33:33] --> decoded_text[165:166] '' --> ' '", - "insert text[34:34] --> decoded_text[167:168] '' --> ' '", - "replace text[35:37] --> decoded_text[169:182] '印度' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[183:184] '' --> ' '", - "insert text[39:39] --> decoded_text[185:186] '' --> ' '", - "replace text[40:42] --> decoded_text[187:200] '工作' --> ' [UNK] [UNK] '", - "insert text[43:43] --> decoded_text[201:202] '' --> ' '", - "insert text[47:47] --> decoded_text[206:207] '' --> ' '", - "insert text[48:48] --> decoded_text[208:209] '' --> ' '", - "replace text[49:50] --> decoded_text[210:217] '他' --> ' [UNK] '", - "replace text[51:53] --> decoded_text[218:231] '为联' --> ' [UNK] [UNK] '", - "insert text[54:54] --> decoded_text[232:233] '' --> ' '", - "replace text[55:57] --> decoded_text[234:247] '驻东' --> ' [UNK] [UNK] '", - "replace text[58:59] --> decoded_text[248:255] '汶' --> ' [UNK] '", - "replace text[60:61] --> decoded_text[256:263] '队' --> ' [UNK] '", - "replace text[62:63] --> decoded_text[264:271] '令' --> ' [UNK] '", - "replace text[64:67] --> decoded_text[272:291] '监督东' --> ' [UNK] [UNK] [UNK] '", - "replace text[68:71] --> decoded_text[292:311] '汶向独' --> ' [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[312:313] '' --> ' '", - "insert text[73:73] --> decoded_text[314:315] '' --> ' '", - "insert text[74:74] --> decoded_text[316:317] '' --> ' '", - "replace text[75:77] --> decoded_text[318:331] '过渡' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 45, - "oov_ratio": 0.5769230769230769, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"印\", \"度\", \"工\", \"作\", \"他\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 [UNK] [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] 成 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 会 [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] 介 [UNK] 二 人 出 [UNK] , 保 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 歌 《 queenieeye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 photograph 》 , [UNK] [UNK] 歌 [UNK] [UNK] [UNK] [UNK] 日 的 美 [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "replace text[5:7] --> decoded_text[8:21] '电据' --> ' [UNK] [UNK] '", - "replace text[8:9] --> decoded_text[22:29] '港' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[30:31] '' --> ' '", - "replace text[11:12] --> decoded_text[32:39] '报' --> ' [UNK] '", - "replace text[13:15] --> decoded_text[40:53] '消息' --> ' [UNK] [UNK] '", - "replace text[16:21] --> decoded_text[54:85] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[22:24] --> decoded_text[86:99] '进军' --> ' [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[100:101] '' --> ' '", - "replace text[26:30] --> decoded_text[102:127] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[32:33] --> decoded_text[129:136] '周' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[137:138] '' --> ' '", - "replace text[35:37] --> decoded_text[139:152] '纪念' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[153:154] '' --> ' '", - "insert text[39:39] --> decoded_text[155:156] '' --> ' '", - "replace text[40:42] --> decoded_text[157:170] '格莱' --> ' [UNK] [UNK] '", - "replace text[43:45] --> decoded_text[171:184] '向两' --> ' [UNK] [UNK] '", - "replace text[46:48] --> decoded_text[185:198] '仅存' --> ' [UNK] [UNK] '", - "replace text[49:50] --> decoded_text[199:206] '员' --> ' [UNK] '", - "insert text[51:51] --> decoded_text[207:208] '' --> ' '", - "replace text[52:58] --> decoded_text[209:246] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[247:248] '' --> ' '", - "replace text[60:61] --> decoded_text[249:256] '达' --> ' [UNK] '", - "replace text[62:63] --> decoded_text[257:259] 'R' --> ' r'", - "replace text[67:68] --> decoded_text[263:264] 'S' --> 's'", - "insert text[72:72] --> decoded_text[268:269] '' --> ' '", - "replace text[73:77] --> decoded_text[270:295] '颁发终身' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[78:80] --> decoded_text[296:309] '就奖' --> ' [UNK] [UNK] '", - "replace text[81:87] --> decoded_text[310:347] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[88:93] --> decoded_text[348:379] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[94:94] --> decoded_text[380:381] '' --> ' '", - "insert text[95:95] --> decoded_text[382:383] '' --> ' '", - "insert text[96:96] --> decoded_text[384:385] '' --> ' '", - "replace text[97:99] --> decoded_text[386:399] '请来' --> ' [UNK] [UNK] '", - "replace text[100:106] --> decoded_text[400:437] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[107:107] --> decoded_text[438:439] '' --> ' '", - "replace text[108:111] --> decoded_text[440:459] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", - "replace text[112:113] --> decoded_text[460:462] 'J' --> ' j'", - "replace text[117:118] --> decoded_text[466:467] 'R' --> 'r'", - "insert text[124:124] --> decoded_text[473:474] '' --> ' '", - "replace text[125:127] --> decoded_text[475:488] '负责' --> ' [UNK] [UNK] '", - "replace text[128:129] --> decoded_text[489:496] '绍' --> ' [UNK] '", - "insert text[130:130] --> decoded_text[497:498] '' --> ' '", - "insert text[131:131] --> decoded_text[499:500] '' --> ' '", - "replace text[132:133] --> decoded_text[501:508] '场' --> ' [UNK] '", - "insert text[134:134] --> decoded_text[509:510] '' --> ' '", - "replace text[135:139] --> decoded_text[511:536] '罗在拍档' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[140:142] --> decoded_text[537:550] '鼓声' --> ' [UNK] [UNK] '", - "replace text[143:144] --> decoded_text[551:558] '应' --> ' [UNK] '", - "insert text[145:145] --> decoded_text[559:560] '' --> ' '", - "replace text[146:149] --> decoded_text[561:580] '先献唱' --> ' [UNK] [UNK] [UNK] '", - "insert text[150:150] --> decoded_text[581:582] '' --> ' '", - "insert text[151:151] --> decoded_text[583:584] '' --> ' '", - "replace text[152:153] --> decoded_text[585:587] 'Q' --> ' q'", - "replace text[159:160] --> decoded_text[593:594] 'E' --> 'e'", - "insert text[162:162] --> decoded_text[596:597] '' --> ' '", - "insert text[163:163] --> decoded_text[598:599] '' --> ' '", - "replace text[164:174] --> decoded_text[600:661] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[175:176] --> decoded_text[662:664] 'P' --> ' p'", - "insert text[185:185] --> decoded_text[673:674] '' --> ' '", - "insert text[186:186] --> decoded_text[675:676] '' --> ' '", - "replace text[187:189] --> decoded_text[677:690] '带领' --> ' [UNK] [UNK] '", - "replace text[190:194] --> decoded_text[691:716] '迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[195:195] --> decoded_text[717:718] '' --> ' '", - "insert text[196:196] --> decoded_text[719:720] '' --> ' '", - "replace text[197:200] --> decoded_text[721:740] '好情怀' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 102, - "oov_ratio": 0.5074626865671642, - "oov_charset": "[\"电\", \"据\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] 里 有 [UNK] [UNK] [UNK] 目 的 地 [UNK] , [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] 14 元 , [UNK] 司 [UNK] [UNK] [UNK] 21 元 , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 元 , [UNK] [UNK] 之 前 [UNK] [UNK] 的 1 元 , [UNK] [UNK] [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", - "diff": [ - "replace text[0:4] --> decoded_text[0:24] '佛牌绳哪' --> '[UNK] [UNK] [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[25:26] '' --> ' '", - "replace text[6:9] --> decoded_text[27:46] '卖到达' --> ' [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[47:48] '' --> ' '", - "insert text[11:11] --> decoded_text[49:50] '' --> ' '", - "replace text[12:18] --> decoded_text[51:84] '后,记者全程' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", - "replace text[19:23] --> decoded_text[85:110] '总车费是' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:28] --> decoded_text[112:123] '元,但' --> ' 元 , [UNK] '", - "replace text[29:32] --> decoded_text[124:143] '机到账' --> ' [UNK] [UNK] [UNK] '", - "replace text[34:39] --> decoded_text[145:164] '元,因此,' --> ' 元 , [UNK] [UNK] , '", - "replace text[40:44] --> decoded_text[165:190] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:49] --> decoded_text[191:208] '元,除去' --> ' 元 , [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[209:210] '' --> ' '", - "replace text[51:53] --> decoded_text[211:224] '支付' --> ' [UNK] [UNK] '", - "insert text[54:54] --> decoded_text[225:226] '' --> ' '", - "replace text[55:61] --> decoded_text[227:256] '元,记者净赚' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", - "replace text[62:69] --> decoded_text[257:292] '元,还免费乘了' --> ' 元 , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[70:73] --> decoded_text[293:312] '应支付' --> ' [UNK] [UNK] [UNK] '", - "replace text[75:76] --> decoded_text[314:317] '元' --> ' 元 '", - "replace text[77:78] --> decoded_text[318:325] '车' --> ' [UNK] '" - ], - "n_oov_chars": 43, - "oov_ratio": 0.5443037974683544, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"卖\", \"到\", \"达\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] 五 [UNK] 公 司 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] 春 )", - "diff": [ - "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", - "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[42:43] '' --> ' '", - "insert text[12:12] --> decoded_text[44:45] '' --> ' '", - "replace text[13:18] --> decoded_text[46:77] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[19:19] --> decoded_text[78:79] '' --> ' '", - "replace text[20:25] --> decoded_text[80:111] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[26:27] --> decoded_text[112:119] '职' --> ' [UNK] '", - "replace text[28:31] --> decoded_text[120:139] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[140:141] '' --> ' '", - "replace text[33:37] --> decoded_text[142:167] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:41] --> decoded_text[168:187] '际市场' --> ' [UNK] [UNK] [UNK] '", - "replace text[42:45] --> decoded_text[188:207] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[46:49] --> decoded_text[208:227] '路虎以' --> ' [UNK] [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[228:229] '' --> ' '", - "replace text[51:53] --> decoded_text[230:243] '业务' --> ' [UNK] [UNK] '", - "replace text[54:58] --> decoded_text[244:269] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[270:271] '' --> ' '", - "insert text[60:60] --> decoded_text[272:273] '' --> ' '", - "insert text[61:61] --> decoded_text[274:275] '' --> ' '", - "replace text[62:64] --> decoded_text[276:289] '毕业' --> ' [UNK] [UNK] '", - "insert text[65:65] --> decoded_text[290:291] '' --> ' '", - "replace text[66:73] --> decoded_text[292:335] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[74:74] --> decoded_text[336:337] '' --> ' '", - "insert text[75:75] --> decoded_text[338:339] '' --> ' '", - "replace text[76:77] --> decoded_text[340:347] '资' --> ' [UNK] '", - "insert text[78:78] --> decoded_text[348:349] '' --> ' '", - "insert text[79:79] --> decoded_text[350:351] '' --> ' '", - "replace text[80:83] --> decoded_text[352:371] '副总裁' --> ' [UNK] [UNK] [UNK] '", - "insert text[84:84] --> decoded_text[372:373] '' --> ' '", - "replace text[85:88] --> decoded_text[374:393] '汽通用' --> ' [UNK] [UNK] [UNK] '", - "replace text[89:90] --> decoded_text[394:401] '菱' --> ' [UNK] '", - "insert text[91:91] --> decoded_text[402:403] '' --> ' '", - "insert text[92:92] --> decoded_text[404:405] '' --> ' '", - "replace text[93:104] --> decoded_text[406:473] '副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[105:105] --> decoded_text[474:475] '' --> ' '", - "insert text[106:106] --> decoded_text[476:477] '' --> ' '", - "replace text[107:109] --> decoded_text[478:491] '总裁' --> ' [UNK] [UNK] '", - "insert text[110:110] --> decoded_text[492:493] '' --> ' '", - "insert text[111:111] --> decoded_text[494:495] '' --> ' '", - "replace text[112:113] --> decoded_text[496:503] '赵' --> ' [UNK] '", - "insert text[114:114] --> decoded_text[504:505] '' --> ' '" - ], - "n_oov_chars": 70, - "oov_ratio": 0.6086956521739131, - "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"副\", \"裁\", \"菱\", \"赵\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] 部 [UNK] [UNK] 都 [UNK] [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 也 [UNK] 人 , 不 [UNK] 神 , 人 [UNK] 有 [UNK] [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 春 [UNK] , [UNK] 我 也 [UNK] [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] [UNK] 不 [UNK] ? ” [UNK] 也 [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 也 不 一 定 有 [UNK] [UNK] 。", - "diff": [ - "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", - "replace text[5:8] --> decoded_text[21:40] '可能每' --> ' [UNK] [UNK] [UNK] '", - "replace text[9:11] --> decoded_text[41:54] '作品' --> ' [UNK] [UNK] '", - "replace text[12:16] --> decoded_text[55:80] '是你喜欢' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[17:18] --> decoded_text[81:88] '东' --> ' [UNK] '", - "replace text[19:23] --> decoded_text[89:110] ',如果他' --> ' , [UNK] [UNK] [UNK] '", - "replace text[24:27] --> decoded_text[111:130] '时控制' --> ' [UNK] [UNK] [UNK] '", - "replace text[28:37] --> decoded_text[131:182] '住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:39] --> decoded_text[183:190] '他' --> ' [UNK] '", - "replace text[40:41] --> decoded_text[191:198] '是' --> ' [UNK] '", - "replace text[42:43] --> decoded_text[199:202] ',' --> ' , '", - "replace text[44:45] --> decoded_text[203:210] '是' --> ' [UNK] '", - "replace text[46:47] --> decoded_text[211:214] ',' --> ' , '", - "replace text[48:49] --> decoded_text[215:222] '就' --> ' [UNK] '", - "replace text[50:52] --> decoded_text[223:236] '自己' --> ' [UNK] [UNK] '", - "replace text[53:55] --> decoded_text[237:250] '脾气' --> ' [UNK] [UNK] '", - "replace text[56:61] --> decoded_text[251:282] '他这次执导' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[62:65] --> decoded_text[283:298] '晚,对' --> ' [UNK] , [UNK] '", - "insert text[66:66] --> decoded_text[299:300] '' --> ' '", - "replace text[67:69] --> decoded_text[301:314] '开骂' --> ' [UNK] [UNK] '", - "insert text[70:70] --> decoded_text[315:316] '' --> ' '", - "replace text[71:74] --> decoded_text[317:332] '老毕,' --> ' [UNK] [UNK] , '", - "replace text[75:88] --> decoded_text[333:408] '跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[89:96] --> decoded_text[409:448] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:103] --> decoded_text[449:482] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[104:108] --> decoded_text[483:508] '较死劲是' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[109:110] --> decoded_text[509:516] '是' --> ' [UNK] '", - "insert text[111:111] --> decoded_text[517:518] '' --> ' '", - "replace text[112:113] --> decoded_text[519:526] '这' --> ' [UNK] '", - "replace text[114:116] --> decoded_text[527:540] '是骂' --> ' [UNK] [UNK] '", - "insert text[117:117] --> decoded_text[541:542] '' --> ' '", - "replace text[118:129] --> decoded_text[543:606] '但因为你非常了解他,他' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", - "insert text[130:130] --> decoded_text[607:608] '' --> ' '", - "insert text[131:131] --> decoded_text[609:610] '' --> ' '", - "insert text[132:132] --> decoded_text[611:612] '' --> ' '", - "insert text[133:133] --> decoded_text[613:614] '' --> ' '", - "replace text[134:136] --> decoded_text[615:628] '恶意' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 89, - "oov_ratio": 0.6496350364963503, - "oov_charset": "[\"腕\", \"导\", \"演\", \"可\", \"能\", \"每\", \"作\", \"品\", \"是\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"晚\", \"对\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"但\", \"因\", \"为\", \"常\", \"解\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 也 花 [UNK] [UNK] 。 有 [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] 的 年 [UNK] 高 [UNK] 360 [UNK] 元 人 民 [UNK] , 李 [UNK] [UNK] 年 的 花 [UNK] [UNK] 600 [UNK] [UNK] 元 。 [UNK] 一 [UNK] [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] 元 [UNK] 出 [UNK] [UNK] 。", - "diff": [ - "replace text[0:7] --> decoded_text[0:42] '招财带什么佛牌' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[8:15] --> decoded_text[43:82] '过挣得多,娜姐' --> ' [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] '", - "insert text[16:16] --> decoded_text[83:84] '' --> ' '", - "replace text[17:19] --> decoded_text[85:98] '得多' --> ' [UNK] [UNK] '", - "insert text[20:20] --> decoded_text[99:100] '' --> ' '", - "replace text[21:24] --> decoded_text[101:120] '媒体报' --> ' [UNK] [UNK] [UNK] '", - "replace text[25:31] --> decoded_text[121:154] ',教练卡洛斯' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[155:156] '' --> ' '", - "replace text[33:34] --> decoded_text[157:164] '薪' --> ' [UNK] '", - "replace text[35:36] --> decoded_text[165:172] '达' --> ' [UNK] '", - "replace text[39:40] --> decoded_text[175:182] '万' --> ' [UNK] '", - "insert text[41:41] --> decoded_text[183:184] '' --> ' '", - "insert text[42:42] --> decoded_text[185:186] '' --> ' '", - "replace text[43:45] --> decoded_text[187:196] '币,' --> ' [UNK] , '", - "replace text[46:48] --> decoded_text[197:210] '娜每' --> ' [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[211:212] '' --> ' '", - "insert text[50:50] --> decoded_text[213:214] '' --> ' '", - "replace text[51:53] --> decoded_text[215:228] '费是' --> ' [UNK] [UNK] '", - "replace text[56:58] --> decoded_text[231:244] '多万' --> ' [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[245:246] '' --> ' '", - "replace text[60:61] --> decoded_text[247:254] '用' --> ' [UNK] '", - "replace text[62:65] --> decoded_text[255:274] '个形象' --> ' [UNK] [UNK] [UNK] '", - "insert text[66:66] --> decoded_text[275:276] '' --> ' '", - "replace text[67:72] --> decoded_text[277:304] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", - "insert text[73:73] --> decoded_text[305:306] '' --> ' '", - "replace text[74:79] --> decoded_text[307:334] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", - "replace text[80:81] --> decoded_text[335:342] '万' --> ' [UNK] '", - "replace text[82:83] --> decoded_text[343:350] '就' --> ' [UNK] '", - "replace text[84:86] --> decoded_text[351:364] '去了' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 49, - "oov_ratio": 0.5632183908045977, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"薪\", \"达\", \"万\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 里 有 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 [UNK] 心 [UNK] 的 , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , 我 [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] 出 [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", - "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", - "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", - "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", - "insert text[11:11] --> decoded_text[37:38] '' --> ' '", - "insert text[12:12] --> decoded_text[39:40] '' --> ' '", - "insert text[13:13] --> decoded_text[41:42] '' --> ' '", - "replace text[14:17] --> decoded_text[43:62] '个反派' --> ' [UNK] [UNK] [UNK] '", - "replace text[18:19] --> decoded_text[63:70] '物' --> ' [UNK] '", - "replace text[20:24] --> decoded_text[71:96] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:26] --> decoded_text[97:100] ',' --> ' , '", - "replace text[27:30] --> decoded_text[101:116] '般的坏' --> ' [UNK] 的 [UNK] '", - "replace text[31:33] --> decoded_text[117:130] '做坏' --> ' [UNK] [UNK] '", - "insert text[34:34] --> decoded_text[131:132] '' --> ' '", - "replace text[35:36] --> decoded_text[133:140] '是' --> ' [UNK] '", - "replace text[37:44] --> decoded_text[141:176] '虚的,但是这个' --> ' [UNK] 的 , [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:49] --> decoded_text[177:202] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[203:204] '' --> ' '", - "replace text[51:59] --> decoded_text[205:246] '理得,理直气壮,' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , '", - "replace text[60:71] --> decoded_text[247:306] '遇到的这个的哥就是这样' --> ' [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[307:308] '' --> ' '", - "insert text[73:73] --> decoded_text[309:310] '' --> ' '", - "replace text[74:75] --> decoded_text[311:318] '先' --> ' [UNK] '", - "replace text[76:85] --> decoded_text[319:374] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[86:92] --> decoded_text[375:412] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[93:93] --> decoded_text[413:414] '' --> ' '", - "replace text[94:97] --> decoded_text[415:430] '来,昨' --> ' [UNK] , [UNK] '", - "insert text[98:98] --> decoded_text[431:432] '' --> ' '", - "replace text[99:100] --> decoded_text[433:440] '先' --> ' [UNK] '", - "replace text[101:103] --> decoded_text[441:454] '在搭' --> ' [UNK] [UNK] '", - "replace text[104:113] --> decoded_text[455:498] '租车时,遇到的的哥' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] '", - "replace text[114:115] --> decoded_text[499:506] '仅' --> ' [UNK] '", - "replace text[116:117] --> decoded_text[507:514] '拾' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[515:528] '而昧' --> ' [UNK] [UNK] '", - "replace text[121:123] --> decoded_text[529:538] ',还' --> ' , [UNK] '", - "replace text[124:125] --> decoded_text[539:546] '昧' --> ' [UNK] '", - "replace text[126:131] --> decoded_text[547:578] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 79, - "oov_ratio": 0.5984848484848485, - "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] 代 [UNK] [UNK] 4s [UNK] [UNK] [UNK] , [UNK] 内 [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 元 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", + "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[122:123] '' --> ' '", + "insert text[42:42] --> decoded_text[124:125] '' --> ' '", + "replace text[43:48] --> decoded_text[126:157] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[158:159] '' --> ' '", + "replace text[50:55] --> decoded_text[160:191] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:57] --> decoded_text[192:199] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[200:219] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[220:221] '' --> ' '", + "replace text[63:67] --> decoded_text[222:247] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[248:267] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[72:75] --> decoded_text[268:287] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:79] --> decoded_text[288:307] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[308:309] '' --> ' '", + "replace text[81:83] --> decoded_text[310:323] '业务' --> ' [UNK] [UNK] '", + "replace text[84:88] --> decoded_text[324:349] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[89:89] --> decoded_text[350:351] '' --> ' '", + "insert text[90:90] --> decoded_text[352:353] '' --> ' '", + "insert text[91:91] --> decoded_text[354:355] '' --> ' '", + "replace text[92:94] --> decoded_text[356:369] '毕业' --> ' [UNK] [UNK] '", + "insert text[95:95] --> decoded_text[370:371] '' --> ' '", + "replace text[96:103] --> decoded_text[372:415] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[104:104] --> decoded_text[416:417] '' --> ' '", + "insert text[105:105] --> decoded_text[418:419] '' --> ' '", + "replace text[106:107] --> decoded_text[420:427] '资' --> ' [UNK] '", + "insert text[108:108] --> decoded_text[428:429] '' --> ' '", + "insert text[109:109] --> decoded_text[430:431] '' --> ' '", + "insert text[110:110] --> decoded_text[432:433] '' --> ' '", + "replace text[111:112] --> decoded_text[434:441] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[442:443] '' --> ' '", + "replace text[114:121] --> decoded_text[444:487] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[122:122] --> decoded_text[488:489] '' --> ' '", + "replace text[123:125] --> decoded_text[490:503] '传奇' --> ' [UNK] [UNK] '", + "insert text[126:126] --> decoded_text[504:505] '' --> ' '", + "replace text[127:128] --> decoded_text[506:513] '现' --> ' [UNK] '", + "replace text[129:131] --> decoded_text[514:527] '汽车' --> ' [UNK] [UNK] '", + "replace text[132:136] --> decoded_text[528:548] 'S店得知' --> 's [UNK] [UNK] [UNK] '", + "replace text[137:138] --> decoded_text[549:556] '店' --> ' [UNK] '", + "replace text[139:143] --> decoded_text[557:582] '朗动车型' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[144:148] --> decoded_text[583:608] '现车供应' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[149:158] --> decoded_text[609:664] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[159:159] --> decoded_text[665:666] '' --> ' '", + "insert text[163:163] --> decoded_text[670:671] '' --> ' '", + "replace text[164:168] --> decoded_text[672:697] '优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[169:171] --> decoded_text[698:711] '具体' --> ' [UNK] [UNK] '", + "replace text[172:174] --> decoded_text[712:725] '车型' --> ' [UNK] [UNK] '", + "replace text[175:181] --> decoded_text[726:763] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[764:771] '表' --> ' [UNK] '", + "insert text[184:184] --> decoded_text[772:773] '' --> ' '", + "replace text[185:189] --> decoded_text[774:799] '时感兴趣' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[190:196] --> decoded_text[800:837] '朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[847:854] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[858:871] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 121, + "oov_ratio": 0.5654205607476636, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"S\", \"店\", \"得\", \"知\", \"朗\", \"动\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 幸 福 [UNK] [UNK] [UNK] 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 的 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] 的 [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[33:34] '' --> ' '", + "insert text[10:10] --> decoded_text[35:36] '' --> ' '", + "replace text[11:14] --> decoded_text[37:56] '终点站' --> ' [UNK] [UNK] [UNK] '", + "insert text[15:15] --> decoded_text[57:58] '' --> ' '", + "replace text[16:19] --> decoded_text[59:78] '案例令' --> ' [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[79:80] '' --> ' '", + "replace text[21:27] --> decoded_text[81:118] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[28:35] --> decoded_text[119:162] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[163:176] '由于' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[177:178] '' --> ' '", + "replace text[40:48] --> decoded_text[179:228] '未能仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[229:242] '效期' --> ' [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[243:244] '' --> ' '", + "replace text[53:60] --> decoded_text[245:288] '对赴俄罗斯旅游' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[61:61] --> decoded_text[289:290] '' --> ' '", + "insert text[62:62] --> decoded_text[291:292] '' --> ' '", + "insert text[63:63] --> decoded_text[293:294] '' --> ' '", + "replace text[64:79] --> decoded_text[295:386] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:83] --> decoded_text[387:406] '在胡滨' --> ' [UNK] [UNK] [UNK] '", + "replace text[84:86] --> decoded_text[407:420] '协助' --> ' [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[421:422] '' --> ' '", + "replace text[88:90] --> decoded_text[423:436] '这对' --> ' [UNK] [UNK] '", + "replace text[91:96] --> decoded_text[437:468] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:99] --> decoded_text[469:482] '动魄' --> ' [UNK] [UNK] '", + "replace text[100:101] --> decoded_text[483:490] '3' --> ' [UNK] '", + "replace text[102:103] --> decoded_text[491:498] '时' --> ' [UNK] '", + "replace text[104:111] --> decoded_text[499:542] '终于在飞机起飞' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[543:550] '5' --> ' [UNK] '", + "replace text[114:115] --> decoded_text[551:558] '钟' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[559:566] '登' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[567:580] '返程' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[581:594] '航班' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 87, + "oov_ratio": 0.7016129032258065, + "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"终\", \"点\", \"站\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 德 江 [UNK] [UNK] [UNK] 中 [UNK] 示 , 中 法 [UNK] [UNK] [UNK] [UNK] [UNK] 中 法 [UNK] [UNK] [UNK] 大 国 家 [UNK] [UNK] [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 [UNK] 不 同 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:8] --> decoded_text[0:48] '招财带什么佛牌张' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[9:9] --> decoded_text[49:50] '' --> ' '", + "replace text[10:13] --> decoded_text[51:70] '在致辞' --> ' [UNK] [UNK] [UNK] '", + "replace text[14:15] --> decoded_text[71:78] '表' --> ' [UNK] '", + "insert text[16:16] --> decoded_text[79:80] '' --> ' '", + "insert text[17:17] --> decoded_text[81:82] '' --> ' '", + "insert text[18:18] --> decoded_text[83:84] '' --> ' '", + "replace text[19:24] --> decoded_text[85:116] '建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[117:118] '' --> ' '", + "replace text[26:29] --> decoded_text[119:138] '两个伟' --> ' [UNK] [UNK] [UNK] '", + "insert text[30:30] --> decoded_text[139:140] '' --> ' '", + "insert text[31:31] --> decoded_text[141:142] '' --> ' '", + "replace text[32:36] --> decoded_text[143:168] '友好关系' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[169:170] '' --> ' '", + "replace text[38:39] --> decoded_text[171:178] '纪' --> ' [UNK] '", + "insert text[40:40] --> decoded_text[179:180] '' --> ' '", + "replace text[41:42] --> decoded_text[181:188] '树' --> ' [UNK] '", + "replace text[43:44] --> decoded_text[189:196] '了' --> ' [UNK] '", + "insert text[45:45] --> decoded_text[197:198] '' --> ' '", + "insert text[46:46] --> decoded_text[199:200] '' --> ' '", + "insert text[47:47] --> decoded_text[201:202] '' --> ' '", + "replace text[48:50] --> decoded_text[203:216] '制度' --> ' [UNK] [UNK] '", + "insert text[51:51] --> decoded_text[217:218] '' --> ' '", + "insert text[52:52] --> decoded_text[219:220] '' --> ' '", + "insert text[53:53] --> decoded_text[221:222] '' --> ' '", + "replace text[54:56] --> decoded_text[223:236] '共处' --> ' [UNK] [UNK] '", + "insert text[57:57] --> decoded_text[237:238] '' --> ' '", + "replace text[58:60] --> decoded_text[239:252] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[253:260] '对' --> ' [UNK] '", + "replace text[63:69] --> decoded_text[261:298] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[299:312] '了重' --> ' [UNK] [UNK] '", + "replace text[73:76] --> decoded_text[313:332] '而深远' --> ' [UNK] [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[333:346] '影响' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 47, + "oov_ratio": 0.5875, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"在\", \"致\", \"辞\", \"表\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"友\", \"好\", \"关\", \"系\", \"纪\", \"树\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 英 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] 成 [UNK] [UNK] 合 国 [UNK] [UNK] 帝 [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] 帝 [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[12:12] --> decoded_text[67:68] '' --> ' '", + "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", + "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", + "insert text[31:31] --> decoded_text[161:162] '' --> ' '", + "insert text[32:32] --> decoded_text[163:164] '' --> ' '", + "insert text[33:33] --> decoded_text[165:166] '' --> ' '", + "insert text[34:34] --> decoded_text[167:168] '' --> ' '", + "replace text[35:37] --> decoded_text[169:182] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[183:184] '' --> ' '", + "insert text[39:39] --> decoded_text[185:186] '' --> ' '", + "replace text[40:42] --> decoded_text[187:200] '工作' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[201:202] '' --> ' '", + "insert text[47:47] --> decoded_text[206:207] '' --> ' '", + "insert text[48:48] --> decoded_text[208:209] '' --> ' '", + "replace text[49:50] --> decoded_text[210:217] '他' --> ' [UNK] '", + "replace text[51:53] --> decoded_text[218:231] '为联' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[232:233] '' --> ' '", + "replace text[55:57] --> decoded_text[234:247] '驻东' --> ' [UNK] [UNK] '", + "replace text[58:59] --> decoded_text[248:255] '汶' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[256:263] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[264:271] '令' --> ' [UNK] '", + "replace text[64:67] --> decoded_text[272:291] '监督东' --> ' [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[292:311] '汶向独' --> ' [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[312:313] '' --> ' '", + "insert text[73:73] --> decoded_text[314:315] '' --> ' '", + "insert text[74:74] --> decoded_text[316:317] '' --> ' '", + "replace text[75:77] --> decoded_text[318:331] '过渡' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 45, + "oov_ratio": 0.5769230769230769, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"印\", \"度\", \"工\", \"作\", \"他\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] 成 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 会 [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] 介 [UNK] 二 人 出 [UNK] , 保 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 歌 《 queenieeye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 photograph 》 , [UNK] [UNK] 歌 [UNK] [UNK] [UNK] [UNK] 日 的 美 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:7] --> decoded_text[8:21] '电据' --> ' [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[22:29] '港' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[30:31] '' --> ' '", + "replace text[11:12] --> decoded_text[32:39] '报' --> ' [UNK] '", + "replace text[13:15] --> decoded_text[40:53] '消息' --> ' [UNK] [UNK] '", + "replace text[16:21] --> decoded_text[54:85] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[86:99] '进军' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[100:101] '' --> ' '", + "replace text[26:30] --> decoded_text[102:127] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[129:136] '周' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[137:138] '' --> ' '", + "replace text[35:37] --> decoded_text[139:152] '纪念' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[153:154] '' --> ' '", + "insert text[39:39] --> decoded_text[155:156] '' --> ' '", + "replace text[40:42] --> decoded_text[157:170] '格莱' --> ' [UNK] [UNK] '", + "replace text[43:45] --> decoded_text[171:184] '向两' --> ' [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[185:198] '仅存' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[199:206] '员' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[207:208] '' --> ' '", + "replace text[52:58] --> decoded_text[209:246] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[247:248] '' --> ' '", + "replace text[60:61] --> decoded_text[249:256] '达' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[257:259] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[263:264] 'S' --> 's'", + "insert text[72:72] --> decoded_text[268:269] '' --> ' '", + "replace text[73:77] --> decoded_text[270:295] '颁发终身' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[78:80] --> decoded_text[296:309] '就奖' --> ' [UNK] [UNK] '", + "replace text[81:87] --> decoded_text[310:347] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[88:93] --> decoded_text[348:379] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[94:94] --> decoded_text[380:381] '' --> ' '", + "insert text[95:95] --> decoded_text[382:383] '' --> ' '", + "insert text[96:96] --> decoded_text[384:385] '' --> ' '", + "replace text[97:99] --> decoded_text[386:399] '请来' --> ' [UNK] [UNK] '", + "replace text[100:106] --> decoded_text[400:437] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[438:439] '' --> ' '", + "replace text[108:111] --> decoded_text[440:459] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[460:462] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[466:467] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[473:474] '' --> ' '", + "replace text[125:127] --> decoded_text[475:488] '负责' --> ' [UNK] [UNK] '", + "replace text[128:129] --> decoded_text[489:496] '绍' --> ' [UNK] '", + "insert text[130:130] --> decoded_text[497:498] '' --> ' '", + "insert text[131:131] --> decoded_text[499:500] '' --> ' '", + "replace text[132:133] --> decoded_text[501:508] '场' --> ' [UNK] '", + "insert text[134:134] --> decoded_text[509:510] '' --> ' '", + "replace text[135:139] --> decoded_text[511:536] '罗在拍档' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[140:142] --> decoded_text[537:550] '鼓声' --> ' [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[551:558] '应' --> ' [UNK] '", + "insert text[145:145] --> decoded_text[559:560] '' --> ' '", + "replace text[146:149] --> decoded_text[561:580] '先献唱' --> ' [UNK] [UNK] [UNK] '", + "insert text[150:150] --> decoded_text[581:582] '' --> ' '", + "insert text[151:151] --> decoded_text[583:584] '' --> ' '", + "replace text[152:153] --> decoded_text[585:587] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[593:594] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[596:597] '' --> ' '", + "insert text[163:163] --> decoded_text[598:599] '' --> ' '", + "replace text[164:174] --> decoded_text[600:661] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[175:176] --> decoded_text[662:664] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[673:674] '' --> ' '", + "insert text[186:186] --> decoded_text[675:676] '' --> ' '", + "replace text[187:189] --> decoded_text[677:690] '带领' --> ' [UNK] [UNK] '", + "replace text[190:194] --> decoded_text[691:716] '迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[195:195] --> decoded_text[717:718] '' --> ' '", + "insert text[196:196] --> decoded_text[719:720] '' --> ' '", + "replace text[197:200] --> decoded_text[721:740] '好情怀' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 102, + "oov_ratio": 0.5074626865671642, + "oov_charset": "[\"电\", \"据\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] 里 有 [UNK] [UNK] [UNK] 目 的 地 [UNK] , [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] 14 元 , [UNK] 司 [UNK] [UNK] [UNK] 21 元 , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 元 , [UNK] [UNK] 之 前 [UNK] [UNK] 的 1 元 , [UNK] [UNK] [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", + "diff": [ + "replace text[0:4] --> decoded_text[0:24] '佛牌绳哪' --> '[UNK] [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[25:26] '' --> ' '", + "replace text[6:9] --> decoded_text[27:46] '卖到达' --> ' [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[47:48] '' --> ' '", + "insert text[11:11] --> decoded_text[49:50] '' --> ' '", + "replace text[12:18] --> decoded_text[51:84] '后,记者全程' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[19:23] --> decoded_text[85:110] '总车费是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:28] --> decoded_text[112:123] '元,但' --> ' 元 , [UNK] '", + "replace text[29:32] --> decoded_text[124:143] '机到账' --> ' [UNK] [UNK] [UNK] '", + "replace text[34:39] --> decoded_text[145:164] '元,因此,' --> ' 元 , [UNK] [UNK] , '", + "replace text[40:44] --> decoded_text[165:190] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[191:208] '元,除去' --> ' 元 , [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[209:210] '' --> ' '", + "replace text[51:53] --> decoded_text[211:224] '支付' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[225:226] '' --> ' '", + "replace text[55:61] --> decoded_text[227:256] '元,记者净赚' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:69] --> decoded_text[257:292] '元,还免费乘了' --> ' 元 , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:73] --> decoded_text[293:312] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:76] --> decoded_text[314:317] '元' --> ' 元 '", + "replace text[77:78] --> decoded_text[318:325] '车' --> ' [UNK] '" + ], + "n_oov_chars": 43, + "oov_ratio": 0.5443037974683544, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"卖\", \"到\", \"达\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] 五 [UNK] 公 司 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] 春 )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[42:43] '' --> ' '", + "insert text[12:12] --> decoded_text[44:45] '' --> ' '", + "replace text[13:18] --> decoded_text[46:77] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[78:79] '' --> ' '", + "replace text[20:25] --> decoded_text[80:111] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[26:27] --> decoded_text[112:119] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[120:139] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[140:141] '' --> ' '", + "replace text[33:37] --> decoded_text[142:167] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[168:187] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[188:207] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:49] --> decoded_text[208:227] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[228:229] '' --> ' '", + "replace text[51:53] --> decoded_text[230:243] '业务' --> ' [UNK] [UNK] '", + "replace text[54:58] --> decoded_text[244:269] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[270:271] '' --> ' '", + "insert text[60:60] --> decoded_text[272:273] '' --> ' '", + "insert text[61:61] --> decoded_text[274:275] '' --> ' '", + "replace text[62:64] --> decoded_text[276:289] '毕业' --> ' [UNK] [UNK] '", + "insert text[65:65] --> decoded_text[290:291] '' --> ' '", + "replace text[66:73] --> decoded_text[292:335] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[74:74] --> decoded_text[336:337] '' --> ' '", + "insert text[75:75] --> decoded_text[338:339] '' --> ' '", + "replace text[76:77] --> decoded_text[340:347] '资' --> ' [UNK] '", + "insert text[78:78] --> decoded_text[348:349] '' --> ' '", + "insert text[79:79] --> decoded_text[350:351] '' --> ' '", + "replace text[80:83] --> decoded_text[352:371] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[372:373] '' --> ' '", + "replace text[85:88] --> decoded_text[374:393] '汽通用' --> ' [UNK] [UNK] [UNK] '", + "replace text[89:90] --> decoded_text[394:401] '菱' --> ' [UNK] '", + "insert text[91:91] --> decoded_text[402:403] '' --> ' '", + "insert text[92:92] --> decoded_text[404:405] '' --> ' '", + "replace text[93:104] --> decoded_text[406:473] '副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[474:475] '' --> ' '", + "insert text[106:106] --> decoded_text[476:477] '' --> ' '", + "replace text[107:109] --> decoded_text[478:491] '总裁' --> ' [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[492:493] '' --> ' '", + "insert text[111:111] --> decoded_text[494:495] '' --> ' '", + "replace text[112:113] --> decoded_text[496:503] '赵' --> ' [UNK] '", + "insert text[114:114] --> decoded_text[504:505] '' --> ' '" + ], + "n_oov_chars": 70, + "oov_ratio": 0.6086956521739131, + "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"副\", \"裁\", \"菱\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] 部 [UNK] [UNK] 都 [UNK] [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 也 [UNK] 人 , 不 [UNK] 神 , 人 [UNK] 有 [UNK] [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 春 [UNK] , [UNK] 我 也 [UNK] [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] [UNK] 不 [UNK] ? ” [UNK] 也 [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 也 不 一 定 有 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", + "replace text[5:8] --> decoded_text[21:40] '可能每' --> ' [UNK] [UNK] [UNK] '", + "replace text[9:11] --> decoded_text[41:54] '作品' --> ' [UNK] [UNK] '", + "replace text[12:16] --> decoded_text[55:80] '是你喜欢' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[17:18] --> decoded_text[81:88] '东' --> ' [UNK] '", + "replace text[19:23] --> decoded_text[89:110] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "replace text[24:27] --> decoded_text[111:130] '时控制' --> ' [UNK] [UNK] [UNK] '", + "replace text[28:37] --> decoded_text[131:182] '住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:39] --> decoded_text[183:190] '他' --> ' [UNK] '", + "replace text[40:41] --> decoded_text[191:198] '是' --> ' [UNK] '", + "replace text[42:43] --> decoded_text[199:202] ',' --> ' , '", + "replace text[44:45] --> decoded_text[203:210] '是' --> ' [UNK] '", + "replace text[46:47] --> decoded_text[211:214] ',' --> ' , '", + "replace text[48:49] --> decoded_text[215:222] '就' --> ' [UNK] '", + "replace text[50:52] --> decoded_text[223:236] '自己' --> ' [UNK] [UNK] '", + "replace text[53:55] --> decoded_text[237:250] '脾气' --> ' [UNK] [UNK] '", + "replace text[56:61] --> decoded_text[251:282] '他这次执导' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:65] --> decoded_text[283:298] '晚,对' --> ' [UNK] , [UNK] '", + "insert text[66:66] --> decoded_text[299:300] '' --> ' '", + "replace text[67:69] --> decoded_text[301:314] '开骂' --> ' [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[315:316] '' --> ' '", + "replace text[71:74] --> decoded_text[317:332] '老毕,' --> ' [UNK] [UNK] , '", + "replace text[75:88] --> decoded_text[333:408] '跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[409:448] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:103] --> decoded_text[449:482] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[104:108] --> decoded_text[483:508] '较死劲是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[109:110] --> decoded_text[509:516] '是' --> ' [UNK] '", + "insert text[111:111] --> decoded_text[517:518] '' --> ' '", + "replace text[112:113] --> decoded_text[519:526] '这' --> ' [UNK] '", + "replace text[114:116] --> decoded_text[527:540] '是骂' --> ' [UNK] [UNK] '", + "insert text[117:117] --> decoded_text[541:542] '' --> ' '", + "replace text[118:129] --> decoded_text[543:606] '但因为你非常了解他,他' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", + "insert text[130:130] --> decoded_text[607:608] '' --> ' '", + "insert text[131:131] --> decoded_text[609:610] '' --> ' '", + "insert text[132:132] --> decoded_text[611:612] '' --> ' '", + "insert text[133:133] --> decoded_text[613:614] '' --> ' '", + "replace text[134:136] --> decoded_text[615:628] '恶意' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 89, + "oov_ratio": 0.6496350364963503, + "oov_charset": "[\"腕\", \"导\", \"演\", \"可\", \"能\", \"每\", \"作\", \"品\", \"是\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"晚\", \"对\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"但\", \"因\", \"为\", \"常\", \"解\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 也 花 [UNK] [UNK] 。 有 [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] 的 年 [UNK] 高 [UNK] 360 [UNK] 元 人 民 [UNK] , 李 [UNK] [UNK] 年 的 花 [UNK] [UNK] 600 [UNK] [UNK] 元 。 [UNK] 一 [UNK] [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] 元 [UNK] 出 [UNK] [UNK] 。", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '招财带什么佛牌' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[8:15] --> decoded_text[43:82] '过挣得多,娜姐' --> ' [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] '", + "insert text[16:16] --> decoded_text[83:84] '' --> ' '", + "replace text[17:19] --> decoded_text[85:98] '得多' --> ' [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[99:100] '' --> ' '", + "replace text[21:24] --> decoded_text[101:120] '媒体报' --> ' [UNK] [UNK] [UNK] '", + "replace text[25:31] --> decoded_text[121:154] ',教练卡洛斯' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[155:156] '' --> ' '", + "replace text[33:34] --> decoded_text[157:164] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[165:172] '达' --> ' [UNK] '", + "replace text[39:40] --> decoded_text[175:182] '万' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[183:184] '' --> ' '", + "insert text[42:42] --> decoded_text[185:186] '' --> ' '", + "replace text[43:45] --> decoded_text[187:196] '币,' --> ' [UNK] , '", + "replace text[46:48] --> decoded_text[197:210] '娜每' --> ' [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[211:212] '' --> ' '", + "insert text[50:50] --> decoded_text[213:214] '' --> ' '", + "replace text[51:53] --> decoded_text[215:228] '费是' --> ' [UNK] [UNK] '", + "replace text[56:58] --> decoded_text[231:244] '多万' --> ' [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[245:246] '' --> ' '", + "replace text[60:61] --> decoded_text[247:254] '用' --> ' [UNK] '", + "replace text[62:65] --> decoded_text[255:274] '个形象' --> ' [UNK] [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[275:276] '' --> ' '", + "replace text[67:72] --> decoded_text[277:304] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[305:306] '' --> ' '", + "replace text[74:79] --> decoded_text[307:334] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "replace text[80:81] --> decoded_text[335:342] '万' --> ' [UNK] '", + "replace text[82:83] --> decoded_text[343:350] '就' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[351:364] '去了' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 49, + "oov_ratio": 0.5632183908045977, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"薪\", \"达\", \"万\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 里 有 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 [UNK] 心 [UNK] 的 , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , 我 [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] 出 [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", + "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[37:38] '' --> ' '", + "insert text[12:12] --> decoded_text[39:40] '' --> ' '", + "insert text[13:13] --> decoded_text[41:42] '' --> ' '", + "replace text[14:17] --> decoded_text[43:62] '个反派' --> ' [UNK] [UNK] [UNK] '", + "replace text[18:19] --> decoded_text[63:70] '物' --> ' [UNK] '", + "replace text[20:24] --> decoded_text[71:96] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:26] --> decoded_text[97:100] ',' --> ' , '", + "replace text[27:30] --> decoded_text[101:116] '般的坏' --> ' [UNK] 的 [UNK] '", + "replace text[31:33] --> decoded_text[117:130] '做坏' --> ' [UNK] [UNK] '", + "insert text[34:34] --> decoded_text[131:132] '' --> ' '", + "replace text[35:36] --> decoded_text[133:140] '是' --> ' [UNK] '", + "replace text[37:44] --> decoded_text[141:176] '虚的,但是这个' --> ' [UNK] 的 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[177:202] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[203:204] '' --> ' '", + "replace text[51:59] --> decoded_text[205:246] '理得,理直气壮,' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , '", + "replace text[60:71] --> decoded_text[247:306] '遇到的这个的哥就是这样' --> ' [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[307:308] '' --> ' '", + "insert text[73:73] --> decoded_text[309:310] '' --> ' '", + "replace text[74:75] --> decoded_text[311:318] '先' --> ' [UNK] '", + "replace text[76:85] --> decoded_text[319:374] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[86:92] --> decoded_text[375:412] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[413:414] '' --> ' '", + "replace text[94:97] --> decoded_text[415:430] '来,昨' --> ' [UNK] , [UNK] '", + "insert text[98:98] --> decoded_text[431:432] '' --> ' '", + "replace text[99:100] --> decoded_text[433:440] '先' --> ' [UNK] '", + "replace text[101:103] --> decoded_text[441:454] '在搭' --> ' [UNK] [UNK] '", + "replace text[104:113] --> decoded_text[455:498] '租车时,遇到的的哥' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] '", + "replace text[114:115] --> decoded_text[499:506] '仅' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[507:514] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[515:528] '而昧' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[529:538] ',还' --> ' , [UNK] '", + "replace text[124:125] --> decoded_text[539:546] '昧' --> ' [UNK] '", + "replace text[126:131] --> decoded_text[547:578] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 79, + "oov_ratio": 0.5984848484848485, + "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json index f94df4d41c4051709613f43568a36983d6e9d31e..b804297bd277e1df5e81b7ee4fc18b81d0b8ea3f 100644 --- a/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json +++ b/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "Hope you are OK and have got over the stress of your trip now <3", - "decoded_text": "Hope you are OK and have got over the stress of your trip now 3", - "diff": [ - "insert text[63:63] --> decoded_text[63:67] '' --> 'unk>'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015625, - "oov_charset": "[\"<\"]" - }, - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "Would love some tatts, but too much of a wimp to get them! 😥", - "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", - "diff": [ - "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"😥\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Hope you are OK and have got over the stress of your trip now <3", + "decoded_text": "Hope you are OK and have got over the stress of your trip now 3", + "diff": [ + "insert text[63:63] --> decoded_text[63:67] '' --> 'unk>'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015625, + "oov_charset": "[\"<\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json index 66d9e4ead49926f6fd30f916d2ed8bc3d27125cf..45c4c2d9e2d53d2e4c2f569ce3dc840c3f15be76 100644 --- a/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json +++ b/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json @@ -1,105 +1,105 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", - "diff": [ - "replace text[190:191] --> decoded_text[190:195] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004464285714285714, - "oov_charset": "[\"í\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[133:134] --> decoded_text[133:138] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005376344086021506, - "oov_charset": "[\"í\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[9:10] --> decoded_text[9:14] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"í\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", - "diff": [ - "replace text[9:10] --> decoded_text[9:14] 'í' --> ''", - "replace text[19:20] --> decoded_text[23:28] 'í' --> ''", - "replace text[56:57] --> decoded_text[64:66] 'ú' --> ' decoded_text[67:70] '' --> 'k>n'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.05172413793103448, - "oov_charset": "[\"í\", \"ú\"]" - }, - { - "text": "determinados artículos del Estatuto de los Trabajadores,", - "decoded_text": "determinados artculos del Estatuto de los Trabajadores,", - "diff": [ - "replace text[16:17] --> decoded_text[16:21] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017857142857142856, - "oov_charset": "[\"í\"]" - }, - { - "text": "Cuando el período de vacaciones fijado en el calendario de", - "decoded_text": "Cuando el perodo de vacaciones fijado en el calendario de", - "diff": [ - "replace text[13:14] --> decoded_text[13:18] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.017241379310344827, - "oov_charset": "[\"í\"]" - }, - { - "text": "del embarazo, el parto o la lactancia natural o con el período de", - "decoded_text": "del embarazo, el parto o la lactancia natural o con el perodo de", - "diff": [ - "replace text[58:59] --> decoded_text[58:63] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015384615384615385, - "oov_charset": "[\"í\"]" - }, - { - "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", - "decoded_text": "suspensión del contrato de trabajo previsto en el artculo 48.4", - "diff": [ - "replace text[53:54] --> decoded_text[53:58] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"í\"]" - }, - { - "text": "al finalizar el período de suspensión, aunque haya terminado", - "decoded_text": "al finalizar el perodo de suspensión, aunque haya terminado", - "diff": [ - "replace text[19:20] --> decoded_text[19:24] 'í' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"í\"]" - }, - { - "text": "el año natural a que correspondan.", - "decoded_text": "el ao natural a que correspondan.", - "diff": [ - "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"ñ\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", + "diff": [ + "replace text[190:191] --> decoded_text[190:195] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004464285714285714, + "oov_charset": "[\"í\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[133:134] --> decoded_text[133:138] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] 'í' --> ''", + "replace text[19:20] --> decoded_text[23:28] 'í' --> ''", + "replace text[56:57] --> decoded_text[64:66] 'ú' --> ' decoded_text[67:70] '' --> 'k>n'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05172413793103448, + "oov_charset": "[\"í\", \"ú\"]" + }, + { + "text": "determinados artículos del Estatuto de los Trabajadores,", + "decoded_text": "determinados artculos del Estatuto de los Trabajadores,", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017857142857142856, + "oov_charset": "[\"í\"]" + }, + { + "text": "Cuando el período de vacaciones fijado en el calendario de", + "decoded_text": "Cuando el perodo de vacaciones fijado en el calendario de", + "diff": [ + "replace text[13:14] --> decoded_text[13:18] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"í\"]" + }, + { + "text": "del embarazo, el parto o la lactancia natural o con el período de", + "decoded_text": "del embarazo, el parto o la lactancia natural o con el perodo de", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"í\"]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artculo 48.4", + "diff": [ + "replace text[53:54] --> decoded_text[53:58] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "al finalizar el período de suspensión, aunque haya terminado", + "decoded_text": "al finalizar el perodo de suspensión, aunque haya terminado", + "diff": [ + "replace text[19:20] --> decoded_text[19:24] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"í\"]" + }, + { + "text": "el año natural a que correspondan.", + "decoded_text": "el ao natural a que correspondan.", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"ñ\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json index 8e063bbe0b425a09019eda226c84d7531ab86503..c7b278a8a51b7437e8c9b4294e0bf948b5446e97 100644 --- a/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json +++ b/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ^^", - "decoded_text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ", - "diff": [ - "replace text[96:98] --> decoded_text[96:101] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"^\"]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ^^", - "decoded_text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ", - "diff": [ - "replace text[144:146] --> decoded_text[144:149] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.0136986301369863, - "oov_charset": "[\"^\"]" - }, - { - "text": "haha merci pour ta réponse ^^ (je me demande si on devrait compter les jolies filles comme contact physique)", - "decoded_text": "haha merci pour ta réponse (je me demande si on devrait compter les jolies filles comme contact physique)", - "diff": [ - "replace text[27:29] --> decoded_text[27:32] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.018518518518518517, - "oov_charset": "[\"^\"]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''", - "replace text[66:68] --> decoded_text[65:70] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"^\"]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Peut-on poser de la mosaïque de verre au sol?", - "decoded_text": "Peut-on poser de la mosaque de verre au sol?", - "diff": [ - "replace text[24:25] --> decoded_text[24:29] 'ï' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"ï\"]" - }, - { - "text": "Comment pose-t-on de la mosaïque de pâte de verre montée sur papier?", - "decoded_text": "Comment pose-t-on de la mosaque de pâte de verre montée sur papier?", - "diff": [ - "replace text[28:29] --> decoded_text[28:33] 'ï' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.014705882352941176, - "oov_charset": "[\"ï\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ^^", + "decoded_text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ", + "diff": [ + "replace text[96:98] --> decoded_text[96:101] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"^\"]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ^^", + "decoded_text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ", + "diff": [ + "replace text[144:146] --> decoded_text[144:149] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0136986301369863, + "oov_charset": "[\"^\"]" + }, + { + "text": "haha merci pour ta réponse ^^ (je me demande si on devrait compter les jolies filles comme contact physique)", + "decoded_text": "haha merci pour ta réponse (je me demande si on devrait compter les jolies filles comme contact physique)", + "diff": [ + "replace text[27:29] --> decoded_text[27:32] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"^\"]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''", + "replace text[66:68] --> decoded_text[65:70] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"^\"]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Peut-on poser de la mosaïque de verre au sol?", + "decoded_text": "Peut-on poser de la mosaque de verre au sol?", + "diff": [ + "replace text[24:25] --> decoded_text[24:29] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"ï\"]" + }, + { + "text": "Comment pose-t-on de la mosaïque de pâte de verre montée sur papier?", + "decoded_text": "Comment pose-t-on de la mosaque de pâte de verre montée sur papier?", + "diff": [ + "replace text[28:29] --> decoded_text[28:33] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"ï\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json index 61325e98b576ba2d47fffdc15aa2819c85874f60..2427bd7229a677872ae6033aff1c07c74a860963 100644 --- a/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json @@ -1,138 +1,138 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "(www.suzastampin.com)2012,,,4S,,6000,,40081122333456:", - "diff": [ - "replace text[0:9] --> decoded_text[0:5] '卍招财带什么佛牌卍' --> ''", - "replace text[30:37] --> decoded_text[26:31] '卡尔・斯利姆于' --> ''", - "replace text[41:131] --> decoded_text[35:58] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,,'", - "replace text[133:159] --> decoded_text[60:77] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',,'", - "replace text[163:196] --> decoded_text[81:98] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',,'", - "replace text[206:207] --> decoded_text[108:113] '转' --> ''", - "replace text[211:214] --> decoded_text[117:123] '详询:' --> ':'" - ], - "n_oov_chars": 169, - "oov_ratio": 0.7897196261682243, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": ",,3,5,", - "diff": [ - "replace text[0:124] --> decoded_text[0:41] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',,3,5,'" - ], - "n_oov_chars": 124, - "oov_ratio": 1.0, - "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": ",,,", - "diff": [ - "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" - ], - "n_oov_chars": 80, - "oov_ratio": 1.0, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": ",1999,,", - "diff": [ - "replace text[0:43] --> decoded_text[0:11] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ','", - "replace text[47:78] --> decoded_text[15:32] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" - ], - "n_oov_chars": 74, - "oov_ratio": 0.9487179487179487, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "128,50,:(RingoStarr),,••(JuliaRoberts),,QueenieEye,Photograph,", - "diff": [ - "replace text[1:2] --> decoded_text[1:6] '月' --> ''", - "replace text[4:30] --> decoded_text[8:19] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ','", - "replace text[32:61] --> decoded_text[21:38] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ',:'", - "replace text[73:106] --> decoded_text[50:67] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',,'", - "replace text[108:111] --> decoded_text[69:74] '罗伯茨' --> ''", - "replace text[125:152] --> decoded_text[88:105] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',,'", - "replace text[162:175] --> decoded_text[115:126] '》,然后轮到后者演绎旧作《' --> ','", - "replace text[185:201] --> decoded_text[136:147] '》,带领歌迷重温昔日的美好情怀。' --> ','" - ], - "n_oov_chars": 148, - "oov_ratio": 0.736318407960199, - "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": ",14,21,,7,1,6,14", - "diff": [ - "replace text[0:23] --> decoded_text[0:11] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ','", - "replace text[25:32] --> decoded_text[13:24] '元,但司机到账' --> ','", - "replace text[34:44] --> decoded_text[26:43] '元,因此,司机给记者' --> ',,'", - "replace text[45:54] --> decoded_text[44:55] '元,除去之前支付的' --> ','", - "replace text[55:61] --> decoded_text[56:67] '元,记者净赚' --> ','", - "replace text[62:73] --> decoded_text[68:79] '元,还免费乘了本应支付' --> ','", - "replace text[75:79] --> decoded_text[81:86] '元的车。' --> ''" - ], - "n_oov_chars": 70, - "oov_ratio": 0.8860759493670886, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "2012,,,()", - "diff": [ - "replace text[0:7] --> decoded_text[0:5] '卡尔・斯利姆于' --> ''", - "replace text[11:110] --> decoded_text[9:32] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,,'", - "replace text[111:114] --> decoded_text[33:38] '方赵春' --> ''" - ], - "n_oov_chars": 109, - "oov_ratio": 0.9478260869565217, - "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": ",,,,,:“,,2,1,?”,", - "diff": [ - "replace text[0:70] --> decoded_text[0:36] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,,:'", - "replace text[71:88] --> decoded_text[37:54] '老毕,我跟你说了这么长时间,让你走' --> ',,'", - "replace text[89:96] --> decoded_text[55:66] '号位,你非要走' --> ','", - "replace text[97:111] --> decoded_text[67:79] '号位,你想跟我较死劲是不是?' --> ',?'", - "replace text[112:137] --> decoded_text[80:91] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" - ], - "n_oov_chars": 133, - "oov_ratio": 0.9708029197080292, - "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": ",,360,600,,2", - "diff": [ - "replace text[0:36] --> decoded_text[0:17] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',,'", - "replace text[39:53] --> decoded_text[20:31] '万元人民币,李娜每年的花费是' --> ','", - "replace text[56:79] --> decoded_text[34:51] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',,'", - "replace text[80:87] --> decoded_text[52:57] '万元就出去了。' --> ''" - ], - "n_oov_chars": 80, - "oov_ratio": 0.9195402298850575, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“’,,,,,,”,", - "diff": [ - "replace text[1:19] --> decoded_text[1:6] '金庸的小说《连城诀》里有一个反派人物' --> ''", - "replace text[20:24] --> decoded_text[7:12] '血刀老祖' --> ''", - "replace text[25:72] --> decoded_text[13:37] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,,'", - "replace text[73:115] --> decoded_text[38:55] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',,'", - "replace text[116:120] --> decoded_text[56:61] '拾金而昧' --> ''", - "replace text[121:123] --> decoded_text[62:68] ',还' --> ','", - "replace text[124:125] --> decoded_text[69:74] '昧' --> ''", - "replace text[126:132] --> decoded_text[75:80] '得理直气壮。' --> ''" - ], - "n_oov_chars": 124, - "oov_ratio": 0.9393939393939394, - "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "(www.suzastampin.com)2012,,,4S,,6000,,40081122333456:", + "diff": [ + "replace text[0:9] --> decoded_text[0:5] '卍招财带什么佛牌卍' --> ''", + "replace text[30:37] --> decoded_text[26:31] '卡尔・斯利姆于' --> ''", + "replace text[41:131] --> decoded_text[35:58] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,,'", + "replace text[133:159] --> decoded_text[60:77] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',,'", + "replace text[163:196] --> decoded_text[81:98] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',,'", + "replace text[206:207] --> decoded_text[108:113] '转' --> ''", + "replace text[211:214] --> decoded_text[117:123] '详询:' --> ':'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": ",,3,5,", + "diff": [ + "replace text[0:124] --> decoded_text[0:41] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',,3,5,'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": ",,,", + "diff": [ + "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": ",1999,,", + "diff": [ + "replace text[0:43] --> decoded_text[0:11] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ','", + "replace text[47:78] --> decoded_text[15:32] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "128,50,:(RingoStarr),,••(JuliaRoberts),,QueenieEye,Photograph,", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] '月' --> ''", + "replace text[4:30] --> decoded_text[8:19] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ','", + "replace text[32:61] --> decoded_text[21:38] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ',:'", + "replace text[73:106] --> decoded_text[50:67] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',,'", + "replace text[108:111] --> decoded_text[69:74] '罗伯茨' --> ''", + "replace text[125:152] --> decoded_text[88:105] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',,'", + "replace text[162:175] --> decoded_text[115:126] '》,然后轮到后者演绎旧作《' --> ','", + "replace text[185:201] --> decoded_text[136:147] '》,带领歌迷重温昔日的美好情怀。' --> ','" + ], + "n_oov_chars": 148, + "oov_ratio": 0.736318407960199, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": ",14,21,,7,1,6,14", + "diff": [ + "replace text[0:23] --> decoded_text[0:11] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ','", + "replace text[25:32] --> decoded_text[13:24] '元,但司机到账' --> ','", + "replace text[34:44] --> decoded_text[26:43] '元,因此,司机给记者' --> ',,'", + "replace text[45:54] --> decoded_text[44:55] '元,除去之前支付的' --> ','", + "replace text[55:61] --> decoded_text[56:67] '元,记者净赚' --> ','", + "replace text[62:73] --> decoded_text[68:79] '元,还免费乘了本应支付' --> ','", + "replace text[75:79] --> decoded_text[81:86] '元的车。' --> ''" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "2012,,,()", + "diff": [ + "replace text[0:7] --> decoded_text[0:5] '卡尔・斯利姆于' --> ''", + "replace text[11:110] --> decoded_text[9:32] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,,'", + "replace text[111:114] --> decoded_text[33:38] '方赵春' --> ''" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": ",,,,,:“,,2,1,?”,", + "diff": [ + "replace text[0:70] --> decoded_text[0:36] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,,:'", + "replace text[71:88] --> decoded_text[37:54] '老毕,我跟你说了这么长时间,让你走' --> ',,'", + "replace text[89:96] --> decoded_text[55:66] '号位,你非要走' --> ','", + "replace text[97:111] --> decoded_text[67:79] '号位,你想跟我较死劲是不是?' --> ',?'", + "replace text[112:137] --> decoded_text[80:91] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": ",,360,600,,2", + "diff": [ + "replace text[0:36] --> decoded_text[0:17] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',,'", + "replace text[39:53] --> decoded_text[20:31] '万元人民币,李娜每年的花费是' --> ','", + "replace text[56:79] --> decoded_text[34:51] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',,'", + "replace text[80:87] --> decoded_text[52:57] '万元就出去了。' --> ''" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“’,,,,,,”,", + "diff": [ + "replace text[1:19] --> decoded_text[1:6] '金庸的小说《连城诀》里有一个反派人物' --> ''", + "replace text[20:24] --> decoded_text[7:12] '血刀老祖' --> ''", + "replace text[25:72] --> decoded_text[13:37] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,,'", + "replace text[73:115] --> decoded_text[38:55] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',,'", + "replace text[116:120] --> decoded_text[56:61] '拾金而昧' --> ''", + "replace text[121:123] --> decoded_text[62:68] ',还' --> ','", + "replace text[124:125] --> decoded_text[69:74] '昧' --> ''", + "replace text[126:132] --> decoded_text[75:80] '得理直气壮。' --> ''" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.en.diff.json b/stats/compression_rate/google.byt5-small @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/google.byt5-small @ cc100.en.diff.json +++ b/stats/compression_rate/google.byt5-small @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.es.diff.json b/stats/compression_rate/google.byt5-small @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/google.byt5-small @ cc100.es.diff.json +++ b/stats/compression_rate/google.byt5-small @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json b/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json +++ b/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json index 6c12c1388eb6aa809e6330a8e32781424dce53a1..2b710ca03e93e416bfc5d6fd56da62a990a44d97 100644 --- a/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json @@ -1,172 +1,172 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", - "diff": [ - "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", - "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.03076923076923077, - "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[20:20] --> decoded_text[22:23] '' --> ' '", - "insert text[53:53] --> decoded_text[56:57] '' --> ' '", - "insert text[66:66] --> decoded_text[70:71] '' --> ' '", - "insert text[79:79] --> decoded_text[84:85] '' --> ' '", - "insert text[140:140] --> decoded_text[146:147] '' --> ' '", - "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", - "insert text[181:181] --> decoded_text[188:189] '' --> ' '", - "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", - "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", - "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" - ], - "n_oov_chars": 7, - "oov_ratio": 0.034482758620689655, - "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", - "diff": [ - "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", - "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", - "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", - "insert text[381:381] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.012853470437017995, - "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 3, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"S\", \"V\", \"I\"]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.013245033112582781, - "oov_charset": "[\"A\", \"F\"]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[42:42] --> decoded_text[44:45] '' --> ' '", - "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", - "insert text[67:67] --> decoded_text[70:71] '' --> ' '", - "insert text[68:68] --> decoded_text[72:73] '' --> ' '", - "insert text[76:76] --> decoded_text[81:82] '' --> ' '", - "insert text[77:77] --> decoded_text[83:84] '' --> ' '", - "insert text[109:109] --> decoded_text[116:117] '' --> ' '", - "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.024390243902439025, - "oov_charset": "[\"W\", \"S\", \"F\"]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", - "insert text[18:18] --> decoded_text[18:19] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '", - "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", - "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", - "insert text[139:139] --> decoded_text[146:147] '' --> ' '", - "insert text[140:140] --> decoded_text[148:149] '' --> ' '", - "insert text[144:144] --> decoded_text[153:154] '' --> ' '", - "insert text[145:145] --> decoded_text[155:156] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008438818565400843, - "oov_charset": "[\"S\", \"Y\"]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", - "diff": [ - "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", - "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", - "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", - "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 6, - "oov_ratio": 0.02912621359223301, - "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "insert text[64:64] --> decoded_text[66:67] '' --> ' '", - "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", - "insert text[102:102] --> decoded_text[106:107] '' --> ' '", - "insert text[112:112] --> decoded_text[117:118] '' --> ' '", - "insert text[113:113] --> decoded_text[119:120] '' --> ' '", - "insert text[116:116] --> decoded_text[123:124] '' --> ' '", - "insert text[117:117] --> decoded_text[125:126] '' --> ' '" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05785123966942149, - "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "watch for signs of dehydration!", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"W\"]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json index a41364ca331616aa48c554033ea4b69ffc857be7..4f68fa613094070d67ebecbb3918e1dd30fad07a 100644 --- a/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json @@ -1,131 +1,131 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", - "diff": [ - "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", - "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", - "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", - "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '", - "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", - "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", - "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", - "insert text[206:206] --> decoded_text[209:210] '' --> ' '", - "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.049107142857142856, - "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", - "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02564102564102564, - "oov_charset": "[\"H\", \"ó\"]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", - "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", - "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 5, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", - "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", - "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", - "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", - "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03225806451612903, - "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.031746031746031744, - "oov_charset": "[\"E\", \"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", - "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '", - "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.047619047619047616, - "oov_charset": "[\"A\", \"L\", \"ó\"]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", - "diff": [ - "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", - "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", - "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", - "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", - "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" - ], - "n_oov_chars": 5, - "oov_ratio": 0.08620689655172414, - "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los convenios colectivos", - "diff": [ - "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", - "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03508771929824561, - "oov_charset": "[\"C\"]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificacion anual de las vacaciones.", - "diff": [ - "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022727272727272728, - "oov_charset": "[\"ó\"]" - }, - { - "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", - "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.030303030303030304, - "oov_charset": "[\"E\", \"ó\"]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json index b44040e06ba5381c55cc0e10f3a199cd1cbaacd8..f35a61bf8107fa10a44b0fba76904a4451cbc4e1 100644 --- a/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json @@ -1,143 +1,143 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", - "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", - "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", - "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.046511627906976744, - "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", - "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", - "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.03529411764705882, - "oov_charset": "[\"V\", \"é\"]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", - "diff": [ - "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", - "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", - "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", - "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.058823529411764705, - "oov_charset": "[\"E\", \"é\", \"è\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", - "insert text[195:195] --> decoded_text[195:196] '' --> ' '" - ], - "n_oov_chars": 4, - "oov_ratio": 0.01639344262295082, - "oov_charset": "[\"J\", \"é\", \"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", - "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", - "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.017094017094017096, - "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", - "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", - "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", - "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", - "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", - "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", - "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", - "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", - "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" - ], - "n_oov_chars": 10, - "oov_ratio": 0.052083333333333336, - "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", - "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", - "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", - "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", - "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", - "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" - ], - "n_oov_chars": 6, - "oov_ratio": 0.03821656050955414, - "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- je dois etre mentalement instable, par moments", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.041666666666666664, - "oov_charset": "[\"J\", \"ê\"]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.03636363636363636, - "oov_charset": "[\"J\", \"è\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", - "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", - "insert text[43:43] --> decoded_text[43:44] '' --> ' '", - "insert text[50:50] --> decoded_text[51:52] '' --> ' '", - "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", - "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" - ], - "n_oov_chars": 4, - "oov_ratio": 0.026845637583892617, - "oov_charset": "[\"J\", \"à\", \"é\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json index 8056b5e75dba62bb871805ce7457a17922569cbe..451b3c26db951edaec310ca4892695f106d2aa73 100644 --- a/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json @@ -1,484 +1,484 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] 代 [UNK] [UNK] 4s [UNK] [UNK] [UNK] , [UNK] 内 [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 元 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", - "diff": [ - "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[55:56] '' --> ' '", - "insert text[14:14] --> decoded_text[60:61] '' --> ' '", - "insert text[26:26] --> decoded_text[73:74] '' --> ' '", - "insert text[29:29] --> decoded_text[77:78] '' --> ' '", - "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", - "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[41:41] --> decoded_text[122:123] '' --> ' '", - "insert text[42:42] --> decoded_text[124:125] '' --> ' '", - "replace text[43:48] --> decoded_text[126:157] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[158:159] '' --> ' '", - "replace text[50:55] --> decoded_text[160:191] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[56:57] --> decoded_text[192:199] '职' --> ' [UNK] '", - "replace text[58:61] --> decoded_text[200:219] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[220:221] '' --> ' '", - "replace text[63:67] --> decoded_text[222:247] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[68:71] --> decoded_text[248:267] '际市场' --> ' [UNK] [UNK] [UNK] '", - "replace text[72:75] --> decoded_text[268:287] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[76:79] --> decoded_text[288:307] '路虎以' --> ' [UNK] [UNK] [UNK] '", - "insert text[80:80] --> decoded_text[308:309] '' --> ' '", - "replace text[81:83] --> decoded_text[310:323] '业务' --> ' [UNK] [UNK] '", - "replace text[84:88] --> decoded_text[324:349] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[89:89] --> decoded_text[350:351] '' --> ' '", - "insert text[90:90] --> decoded_text[352:353] '' --> ' '", - "insert text[91:91] --> decoded_text[354:355] '' --> ' '", - "replace text[92:94] --> decoded_text[356:369] '毕业' --> ' [UNK] [UNK] '", - "insert text[95:95] --> decoded_text[370:371] '' --> ' '", - "replace text[96:103] --> decoded_text[372:415] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[104:104] --> decoded_text[416:417] '' --> ' '", - "insert text[105:105] --> decoded_text[418:419] '' --> ' '", - "replace text[106:107] --> decoded_text[420:427] '资' --> ' [UNK] '", - "insert text[108:108] --> decoded_text[428:429] '' --> ' '", - "insert text[109:109] --> decoded_text[430:431] '' --> ' '", - "insert text[110:110] --> decoded_text[432:433] '' --> ' '", - "replace text[111:112] --> decoded_text[434:441] '近' --> ' [UNK] '", - "insert text[113:113] --> decoded_text[442:443] '' --> ' '", - "replace text[114:121] --> decoded_text[444:487] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[122:122] --> decoded_text[488:489] '' --> ' '", - "replace text[123:125] --> decoded_text[490:503] '传奇' --> ' [UNK] [UNK] '", - "insert text[126:126] --> decoded_text[504:505] '' --> ' '", - "replace text[127:128] --> decoded_text[506:513] '现' --> ' [UNK] '", - "replace text[129:131] --> decoded_text[514:527] '汽车' --> ' [UNK] [UNK] '", - "replace text[132:136] --> decoded_text[528:548] 'S店得知' --> 's [UNK] [UNK] [UNK] '", - "replace text[137:138] --> decoded_text[549:556] '店' --> ' [UNK] '", - "replace text[139:143] --> decoded_text[557:582] '朗动车型' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[144:148] --> decoded_text[583:608] '现车供应' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[149:158] --> decoded_text[609:664] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[159:159] --> decoded_text[665:666] '' --> ' '", - "insert text[163:163] --> decoded_text[670:671] '' --> ' '", - "replace text[164:168] --> decoded_text[672:697] '优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[169:171] --> decoded_text[698:711] '具体' --> ' [UNK] [UNK] '", - "replace text[172:174] --> decoded_text[712:725] '车型' --> ' [UNK] [UNK] '", - "replace text[175:181] --> decoded_text[726:763] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[182:183] --> decoded_text[764:771] '表' --> ' [UNK] '", - "insert text[184:184] --> decoded_text[772:773] '' --> ' '", - "replace text[185:189] --> decoded_text[774:799] '时感兴趣' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[190:196] --> decoded_text[800:837] '朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[206:207] --> decoded_text[847:854] '转' --> ' [UNK] '", - "replace text[211:213] --> decoded_text[858:871] '详询' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 121, - "oov_ratio": 0.5654205607476636, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"S\", \"店\", \"得\", \"知\", \"朗\", \"动\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 幸 福 [UNK] [UNK] [UNK] 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 的 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] 的 [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", - "diff": [ - "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[21:22] '' --> ' '", - "insert text[6:6] --> decoded_text[23:24] '' --> ' '", - "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", - "insert text[9:9] --> decoded_text[33:34] '' --> ' '", - "insert text[10:10] --> decoded_text[35:36] '' --> ' '", - "replace text[11:14] --> decoded_text[37:56] '终点站' --> ' [UNK] [UNK] [UNK] '", - "insert text[15:15] --> decoded_text[57:58] '' --> ' '", - "replace text[16:19] --> decoded_text[59:78] '案例令' --> ' [UNK] [UNK] [UNK] '", - "insert text[20:20] --> decoded_text[79:80] '' --> ' '", - "replace text[21:27] --> decoded_text[81:118] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[28:35] --> decoded_text[119:162] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[36:38] --> decoded_text[163:176] '由于' --> ' [UNK] [UNK] '", - "insert text[39:39] --> decoded_text[177:178] '' --> ' '", - "replace text[40:48] --> decoded_text[179:228] '未能仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[49:51] --> decoded_text[229:242] '效期' --> ' [UNK] [UNK] '", - "insert text[52:52] --> decoded_text[243:244] '' --> ' '", - "replace text[53:60] --> decoded_text[245:288] '对赴俄罗斯旅游' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[61:61] --> decoded_text[289:290] '' --> ' '", - "insert text[62:62] --> decoded_text[291:292] '' --> ' '", - "insert text[63:63] --> decoded_text[293:294] '' --> ' '", - "replace text[64:79] --> decoded_text[295:386] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[80:83] --> decoded_text[387:406] '在胡滨' --> ' [UNK] [UNK] [UNK] '", - "replace text[84:86] --> decoded_text[407:420] '协助' --> ' [UNK] [UNK] '", - "insert text[87:87] --> decoded_text[421:422] '' --> ' '", - "replace text[88:90] --> decoded_text[423:436] '这对' --> ' [UNK] [UNK] '", - "replace text[91:96] --> decoded_text[437:468] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:99] --> decoded_text[469:482] '动魄' --> ' [UNK] [UNK] '", - "replace text[100:101] --> decoded_text[483:490] '3' --> ' [UNK] '", - "replace text[102:103] --> decoded_text[491:498] '时' --> ' [UNK] '", - "replace text[104:111] --> decoded_text[499:542] '终于在飞机起飞' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[112:113] --> decoded_text[543:550] '5' --> ' [UNK] '", - "replace text[114:115] --> decoded_text[551:558] '钟' --> ' [UNK] '", - "replace text[116:117] --> decoded_text[559:566] '登' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[567:580] '返程' --> ' [UNK] [UNK] '", - "replace text[121:123] --> decoded_text[581:594] '航班' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 87, - "oov_ratio": 0.7016129032258065, - "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"终\", \"点\", \"站\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 德 江 [UNK] [UNK] [UNK] 中 [UNK] 示 , 中 法 [UNK] [UNK] [UNK] [UNK] [UNK] 中 法 [UNK] [UNK] [UNK] 大 国 家 [UNK] [UNK] [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 [UNK] 不 同 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", - "diff": [ - "replace text[0:8] --> decoded_text[0:48] '招财带什么佛牌张' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[9:9] --> decoded_text[49:50] '' --> ' '", - "replace text[10:13] --> decoded_text[51:70] '在致辞' --> ' [UNK] [UNK] [UNK] '", - "replace text[14:15] --> decoded_text[71:78] '表' --> ' [UNK] '", - "insert text[16:16] --> decoded_text[79:80] '' --> ' '", - "insert text[17:17] --> decoded_text[81:82] '' --> ' '", - "insert text[18:18] --> decoded_text[83:84] '' --> ' '", - "replace text[19:24] --> decoded_text[85:116] '建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[117:118] '' --> ' '", - "replace text[26:29] --> decoded_text[119:138] '两个伟' --> ' [UNK] [UNK] [UNK] '", - "insert text[30:30] --> decoded_text[139:140] '' --> ' '", - "insert text[31:31] --> decoded_text[141:142] '' --> ' '", - "replace text[32:36] --> decoded_text[143:168] '友好关系' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[37:37] --> decoded_text[169:170] '' --> ' '", - "replace text[38:39] --> decoded_text[171:178] '纪' --> ' [UNK] '", - "insert text[40:40] --> decoded_text[179:180] '' --> ' '", - "replace text[41:42] --> decoded_text[181:188] '树' --> ' [UNK] '", - "replace text[43:44] --> decoded_text[189:196] '了' --> ' [UNK] '", - "insert text[45:45] --> decoded_text[197:198] '' --> ' '", - "insert text[46:46] --> decoded_text[199:200] '' --> ' '", - "insert text[47:47] --> decoded_text[201:202] '' --> ' '", - "replace text[48:50] --> decoded_text[203:216] '制度' --> ' [UNK] [UNK] '", - "insert text[51:51] --> decoded_text[217:218] '' --> ' '", - "insert text[52:52] --> decoded_text[219:220] '' --> ' '", - "insert text[53:53] --> decoded_text[221:222] '' --> ' '", - "replace text[54:56] --> decoded_text[223:236] '共处' --> ' [UNK] [UNK] '", - "insert text[57:57] --> decoded_text[237:238] '' --> ' '", - "replace text[58:60] --> decoded_text[239:252] '典范' --> ' [UNK] [UNK] '", - "replace text[61:62] --> decoded_text[253:260] '对' --> ' [UNK] '", - "replace text[63:69] --> decoded_text[261:298] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[70:72] --> decoded_text[299:312] '了重' --> ' [UNK] [UNK] '", - "replace text[73:76] --> decoded_text[313:332] '而深远' --> ' [UNK] [UNK] [UNK] '", - "replace text[77:79] --> decoded_text[333:346] '影响' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 47, - "oov_ratio": 0.5875, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"在\", \"致\", \"辞\", \"表\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"友\", \"好\", \"关\", \"系\", \"纪\", \"树\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 英 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] 成 [UNK] [UNK] 合 国 [UNK] [UNK] 帝 [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] 帝 [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", - "diff": [ - "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[12:12] --> decoded_text[67:68] '' --> ' '", - "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", - "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", - "insert text[31:31] --> decoded_text[161:162] '' --> ' '", - "insert text[32:32] --> decoded_text[163:164] '' --> ' '", - "insert text[33:33] --> decoded_text[165:166] '' --> ' '", - "insert text[34:34] --> decoded_text[167:168] '' --> ' '", - "replace text[35:37] --> decoded_text[169:182] '印度' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[183:184] '' --> ' '", - "insert text[39:39] --> decoded_text[185:186] '' --> ' '", - "replace text[40:42] --> decoded_text[187:200] '工作' --> ' [UNK] [UNK] '", - "insert text[43:43] --> decoded_text[201:202] '' --> ' '", - "insert text[47:47] --> decoded_text[206:207] '' --> ' '", - "insert text[48:48] --> decoded_text[208:209] '' --> ' '", - "replace text[49:50] --> decoded_text[210:217] '他' --> ' [UNK] '", - "replace text[51:53] --> decoded_text[218:231] '为联' --> ' [UNK] [UNK] '", - "insert text[54:54] --> decoded_text[232:233] '' --> ' '", - "replace text[55:57] --> decoded_text[234:247] '驻东' --> ' [UNK] [UNK] '", - "replace text[58:59] --> decoded_text[248:255] '汶' --> ' [UNK] '", - "replace text[60:61] --> decoded_text[256:263] '队' --> ' [UNK] '", - "replace text[62:63] --> decoded_text[264:271] '令' --> ' [UNK] '", - "replace text[64:67] --> decoded_text[272:291] '监督东' --> ' [UNK] [UNK] [UNK] '", - "replace text[68:71] --> decoded_text[292:311] '汶向独' --> ' [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[312:313] '' --> ' '", - "insert text[73:73] --> decoded_text[314:315] '' --> ' '", - "insert text[74:74] --> decoded_text[316:317] '' --> ' '", - "replace text[75:77] --> decoded_text[318:331] '过渡' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 45, - "oov_ratio": 0.5769230769230769, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"印\", \"度\", \"工\", \"作\", \"他\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 [UNK] [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] 成 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 会 [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] 介 [UNK] 二 人 出 [UNK] , 保 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 歌 《 queenieeye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 photograph 》 , [UNK] [UNK] 歌 [UNK] [UNK] [UNK] [UNK] 日 的 美 [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "replace text[5:7] --> decoded_text[8:21] '电据' --> ' [UNK] [UNK] '", - "replace text[8:9] --> decoded_text[22:29] '港' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[30:31] '' --> ' '", - "replace text[11:12] --> decoded_text[32:39] '报' --> ' [UNK] '", - "replace text[13:15] --> decoded_text[40:53] '消息' --> ' [UNK] [UNK] '", - "replace text[16:21] --> decoded_text[54:85] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[22:24] --> decoded_text[86:99] '进军' --> ' [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[100:101] '' --> ' '", - "replace text[26:30] --> decoded_text[102:127] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[32:33] --> decoded_text[129:136] '周' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[137:138] '' --> ' '", - "replace text[35:37] --> decoded_text[139:152] '纪念' --> ' [UNK] [UNK] '", - "insert text[38:38] --> decoded_text[153:154] '' --> ' '", - "insert text[39:39] --> decoded_text[155:156] '' --> ' '", - "replace text[40:42] --> decoded_text[157:170] '格莱' --> ' [UNK] [UNK] '", - "replace text[43:45] --> decoded_text[171:184] '向两' --> ' [UNK] [UNK] '", - "replace text[46:48] --> decoded_text[185:198] '仅存' --> ' [UNK] [UNK] '", - "replace text[49:50] --> decoded_text[199:206] '员' --> ' [UNK] '", - "insert text[51:51] --> decoded_text[207:208] '' --> ' '", - "replace text[52:58] --> decoded_text[209:246] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[247:248] '' --> ' '", - "replace text[60:61] --> decoded_text[249:256] '达' --> ' [UNK] '", - "replace text[62:63] --> decoded_text[257:259] 'R' --> ' r'", - "replace text[67:68] --> decoded_text[263:264] 'S' --> 's'", - "insert text[72:72] --> decoded_text[268:269] '' --> ' '", - "replace text[73:77] --> decoded_text[270:295] '颁发终身' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[78:80] --> decoded_text[296:309] '就奖' --> ' [UNK] [UNK] '", - "replace text[81:87] --> decoded_text[310:347] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[88:93] --> decoded_text[348:379] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[94:94] --> decoded_text[380:381] '' --> ' '", - "insert text[95:95] --> decoded_text[382:383] '' --> ' '", - "insert text[96:96] --> decoded_text[384:385] '' --> ' '", - "replace text[97:99] --> decoded_text[386:399] '请来' --> ' [UNK] [UNK] '", - "replace text[100:106] --> decoded_text[400:437] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[107:107] --> decoded_text[438:439] '' --> ' '", - "replace text[108:111] --> decoded_text[440:459] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", - "replace text[112:113] --> decoded_text[460:462] 'J' --> ' j'", - "replace text[117:118] --> decoded_text[466:467] 'R' --> 'r'", - "insert text[124:124] --> decoded_text[473:474] '' --> ' '", - "replace text[125:127] --> decoded_text[475:488] '负责' --> ' [UNK] [UNK] '", - "replace text[128:129] --> decoded_text[489:496] '绍' --> ' [UNK] '", - "insert text[130:130] --> decoded_text[497:498] '' --> ' '", - "insert text[131:131] --> decoded_text[499:500] '' --> ' '", - "replace text[132:133] --> decoded_text[501:508] '场' --> ' [UNK] '", - "insert text[134:134] --> decoded_text[509:510] '' --> ' '", - "replace text[135:139] --> decoded_text[511:536] '罗在拍档' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[140:142] --> decoded_text[537:550] '鼓声' --> ' [UNK] [UNK] '", - "replace text[143:144] --> decoded_text[551:558] '应' --> ' [UNK] '", - "insert text[145:145] --> decoded_text[559:560] '' --> ' '", - "replace text[146:149] --> decoded_text[561:580] '先献唱' --> ' [UNK] [UNK] [UNK] '", - "insert text[150:150] --> decoded_text[581:582] '' --> ' '", - "insert text[151:151] --> decoded_text[583:584] '' --> ' '", - "replace text[152:153] --> decoded_text[585:587] 'Q' --> ' q'", - "replace text[159:160] --> decoded_text[593:594] 'E' --> 'e'", - "insert text[162:162] --> decoded_text[596:597] '' --> ' '", - "insert text[163:163] --> decoded_text[598:599] '' --> ' '", - "replace text[164:174] --> decoded_text[600:661] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[175:176] --> decoded_text[662:664] 'P' --> ' p'", - "insert text[185:185] --> decoded_text[673:674] '' --> ' '", - "insert text[186:186] --> decoded_text[675:676] '' --> ' '", - "replace text[187:189] --> decoded_text[677:690] '带领' --> ' [UNK] [UNK] '", - "replace text[190:194] --> decoded_text[691:716] '迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[195:195] --> decoded_text[717:718] '' --> ' '", - "insert text[196:196] --> decoded_text[719:720] '' --> ' '", - "replace text[197:200] --> decoded_text[721:740] '好情怀' --> ' [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 102, - "oov_ratio": 0.5074626865671642, - "oov_charset": "[\"电\", \"据\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] 里 有 [UNK] [UNK] [UNK] 目 的 地 [UNK] , [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] 14 元 , [UNK] 司 [UNK] [UNK] [UNK] 21 元 , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 元 , [UNK] [UNK] 之 前 [UNK] [UNK] 的 1 元 , [UNK] [UNK] [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", - "diff": [ - "replace text[0:4] --> decoded_text[0:24] '佛牌绳哪' --> '[UNK] [UNK] [UNK] [UNK] '", - "insert text[5:5] --> decoded_text[25:26] '' --> ' '", - "replace text[6:9] --> decoded_text[27:46] '卖到达' --> ' [UNK] [UNK] [UNK] '", - "insert text[10:10] --> decoded_text[47:48] '' --> ' '", - "insert text[11:11] --> decoded_text[49:50] '' --> ' '", - "replace text[12:18] --> decoded_text[51:84] '后,记者全程' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", - "replace text[19:23] --> decoded_text[85:110] '总车费是' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:28] --> decoded_text[112:123] '元,但' --> ' 元 , [UNK] '", - "replace text[29:32] --> decoded_text[124:143] '机到账' --> ' [UNK] [UNK] [UNK] '", - "replace text[34:39] --> decoded_text[145:164] '元,因此,' --> ' 元 , [UNK] [UNK] , '", - "replace text[40:44] --> decoded_text[165:190] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:49] --> decoded_text[191:208] '元,除去' --> ' 元 , [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[209:210] '' --> ' '", - "replace text[51:53] --> decoded_text[211:224] '支付' --> ' [UNK] [UNK] '", - "insert text[54:54] --> decoded_text[225:226] '' --> ' '", - "replace text[55:61] --> decoded_text[227:256] '元,记者净赚' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", - "replace text[62:69] --> decoded_text[257:292] '元,还免费乘了' --> ' 元 , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[70:73] --> decoded_text[293:312] '应支付' --> ' [UNK] [UNK] [UNK] '", - "replace text[75:76] --> decoded_text[314:317] '元' --> ' 元 '", - "replace text[77:78] --> decoded_text[318:325] '车' --> ' [UNK] '" - ], - "n_oov_chars": 43, - "oov_ratio": 0.5443037974683544, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"卖\", \"到\", \"达\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] 五 [UNK] 公 司 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] 春 )", - "diff": [ - "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", - "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[42:43] '' --> ' '", - "insert text[12:12] --> decoded_text[44:45] '' --> ' '", - "replace text[13:18] --> decoded_text[46:77] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[19:19] --> decoded_text[78:79] '' --> ' '", - "replace text[20:25] --> decoded_text[80:111] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[26:27] --> decoded_text[112:119] '职' --> ' [UNK] '", - "replace text[28:31] --> decoded_text[120:139] '并负责' --> ' [UNK] [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[140:141] '' --> ' '", - "replace text[33:37] --> decoded_text[142:167] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:41] --> decoded_text[168:187] '际市场' --> ' [UNK] [UNK] [UNK] '", - "replace text[42:45] --> decoded_text[188:207] '除捷豹' --> ' [UNK] [UNK] [UNK] '", - "replace text[46:49] --> decoded_text[208:227] '路虎以' --> ' [UNK] [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[228:229] '' --> ' '", - "replace text[51:53] --> decoded_text[230:243] '业务' --> ' [UNK] [UNK] '", - "replace text[54:58] --> decoded_text[244:269] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[270:271] '' --> ' '", - "insert text[60:60] --> decoded_text[272:273] '' --> ' '", - "insert text[61:61] --> decoded_text[274:275] '' --> ' '", - "replace text[62:64] --> decoded_text[276:289] '毕业' --> ' [UNK] [UNK] '", - "insert text[65:65] --> decoded_text[290:291] '' --> ' '", - "replace text[66:73] --> decoded_text[292:335] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[74:74] --> decoded_text[336:337] '' --> ' '", - "insert text[75:75] --> decoded_text[338:339] '' --> ' '", - "replace text[76:77] --> decoded_text[340:347] '资' --> ' [UNK] '", - "insert text[78:78] --> decoded_text[348:349] '' --> ' '", - "insert text[79:79] --> decoded_text[350:351] '' --> ' '", - "replace text[80:83] --> decoded_text[352:371] '副总裁' --> ' [UNK] [UNK] [UNK] '", - "insert text[84:84] --> decoded_text[372:373] '' --> ' '", - "replace text[85:88] --> decoded_text[374:393] '汽通用' --> ' [UNK] [UNK] [UNK] '", - "replace text[89:90] --> decoded_text[394:401] '菱' --> ' [UNK] '", - "insert text[91:91] --> decoded_text[402:403] '' --> ' '", - "insert text[92:92] --> decoded_text[404:405] '' --> ' '", - "replace text[93:104] --> decoded_text[406:473] '副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[105:105] --> decoded_text[474:475] '' --> ' '", - "insert text[106:106] --> decoded_text[476:477] '' --> ' '", - "replace text[107:109] --> decoded_text[478:491] '总裁' --> ' [UNK] [UNK] '", - "insert text[110:110] --> decoded_text[492:493] '' --> ' '", - "insert text[111:111] --> decoded_text[494:495] '' --> ' '", - "replace text[112:113] --> decoded_text[496:503] '赵' --> ' [UNK] '", - "insert text[114:114] --> decoded_text[504:505] '' --> ' '" - ], - "n_oov_chars": 70, - "oov_ratio": 0.6086956521739131, - "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"副\", \"裁\", \"菱\", \"赵\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] 部 [UNK] [UNK] 都 [UNK] [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 也 [UNK] 人 , 不 [UNK] 神 , 人 [UNK] 有 [UNK] [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 春 [UNK] , [UNK] 我 也 [UNK] [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] [UNK] 不 [UNK] ? ” [UNK] 也 [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 也 不 一 定 有 [UNK] [UNK] 。", - "diff": [ - "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", - "replace text[5:8] --> decoded_text[21:40] '可能每' --> ' [UNK] [UNK] [UNK] '", - "replace text[9:11] --> decoded_text[41:54] '作品' --> ' [UNK] [UNK] '", - "replace text[12:16] --> decoded_text[55:80] '是你喜欢' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[17:18] --> decoded_text[81:88] '东' --> ' [UNK] '", - "replace text[19:23] --> decoded_text[89:110] ',如果他' --> ' , [UNK] [UNK] [UNK] '", - "replace text[24:27] --> decoded_text[111:130] '时控制' --> ' [UNK] [UNK] [UNK] '", - "replace text[28:37] --> decoded_text[131:182] '住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[38:39] --> decoded_text[183:190] '他' --> ' [UNK] '", - "replace text[40:41] --> decoded_text[191:198] '是' --> ' [UNK] '", - "replace text[42:43] --> decoded_text[199:202] ',' --> ' , '", - "replace text[44:45] --> decoded_text[203:210] '是' --> ' [UNK] '", - "replace text[46:47] --> decoded_text[211:214] ',' --> ' , '", - "replace text[48:49] --> decoded_text[215:222] '就' --> ' [UNK] '", - "replace text[50:52] --> decoded_text[223:236] '自己' --> ' [UNK] [UNK] '", - "replace text[53:55] --> decoded_text[237:250] '脾气' --> ' [UNK] [UNK] '", - "replace text[56:61] --> decoded_text[251:282] '他这次执导' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[62:65] --> decoded_text[283:298] '晚,对' --> ' [UNK] , [UNK] '", - "insert text[66:66] --> decoded_text[299:300] '' --> ' '", - "replace text[67:69] --> decoded_text[301:314] '开骂' --> ' [UNK] [UNK] '", - "insert text[70:70] --> decoded_text[315:316] '' --> ' '", - "replace text[71:74] --> decoded_text[317:332] '老毕,' --> ' [UNK] [UNK] , '", - "replace text[75:88] --> decoded_text[333:408] '跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[89:96] --> decoded_text[409:448] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", - "replace text[97:103] --> decoded_text[449:482] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", - "replace text[104:108] --> decoded_text[483:508] '较死劲是' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[109:110] --> decoded_text[509:516] '是' --> ' [UNK] '", - "insert text[111:111] --> decoded_text[517:518] '' --> ' '", - "replace text[112:113] --> decoded_text[519:526] '这' --> ' [UNK] '", - "replace text[114:116] --> decoded_text[527:540] '是骂' --> ' [UNK] [UNK] '", - "insert text[117:117] --> decoded_text[541:542] '' --> ' '", - "replace text[118:129] --> decoded_text[543:606] '但因为你非常了解他,他' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", - "insert text[130:130] --> decoded_text[607:608] '' --> ' '", - "insert text[131:131] --> decoded_text[609:610] '' --> ' '", - "insert text[132:132] --> decoded_text[611:612] '' --> ' '", - "insert text[133:133] --> decoded_text[613:614] '' --> ' '", - "replace text[134:136] --> decoded_text[615:628] '恶意' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 89, - "oov_ratio": 0.6496350364963503, - "oov_charset": "[\"腕\", \"导\", \"演\", \"可\", \"能\", \"每\", \"作\", \"品\", \"是\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"晚\", \"对\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"但\", \"因\", \"为\", \"常\", \"解\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 也 花 [UNK] [UNK] 。 有 [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] 的 年 [UNK] 高 [UNK] 360 [UNK] 元 人 民 [UNK] , 李 [UNK] [UNK] 年 的 花 [UNK] [UNK] 600 [UNK] [UNK] 元 。 [UNK] 一 [UNK] [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] 元 [UNK] 出 [UNK] [UNK] 。", - "diff": [ - "replace text[0:7] --> decoded_text[0:42] '招财带什么佛牌' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[8:15] --> decoded_text[43:82] '过挣得多,娜姐' --> ' [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] '", - "insert text[16:16] --> decoded_text[83:84] '' --> ' '", - "replace text[17:19] --> decoded_text[85:98] '得多' --> ' [UNK] [UNK] '", - "insert text[20:20] --> decoded_text[99:100] '' --> ' '", - "replace text[21:24] --> decoded_text[101:120] '媒体报' --> ' [UNK] [UNK] [UNK] '", - "replace text[25:31] --> decoded_text[121:154] ',教练卡洛斯' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[155:156] '' --> ' '", - "replace text[33:34] --> decoded_text[157:164] '薪' --> ' [UNK] '", - "replace text[35:36] --> decoded_text[165:172] '达' --> ' [UNK] '", - "replace text[39:40] --> decoded_text[175:182] '万' --> ' [UNK] '", - "insert text[41:41] --> decoded_text[183:184] '' --> ' '", - "insert text[42:42] --> decoded_text[185:186] '' --> ' '", - "replace text[43:45] --> decoded_text[187:196] '币,' --> ' [UNK] , '", - "replace text[46:48] --> decoded_text[197:210] '娜每' --> ' [UNK] [UNK] '", - "insert text[49:49] --> decoded_text[211:212] '' --> ' '", - "insert text[50:50] --> decoded_text[213:214] '' --> ' '", - "replace text[51:53] --> decoded_text[215:228] '费是' --> ' [UNK] [UNK] '", - "replace text[56:58] --> decoded_text[231:244] '多万' --> ' [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[245:246] '' --> ' '", - "replace text[60:61] --> decoded_text[247:254] '用' --> ' [UNK] '", - "replace text[62:65] --> decoded_text[255:274] '个形象' --> ' [UNK] [UNK] [UNK] '", - "insert text[66:66] --> decoded_text[275:276] '' --> ' '", - "replace text[67:72] --> decoded_text[277:304] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", - "insert text[73:73] --> decoded_text[305:306] '' --> ' '", - "replace text[74:79] --> decoded_text[307:334] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", - "replace text[80:81] --> decoded_text[335:342] '万' --> ' [UNK] '", - "replace text[82:83] --> decoded_text[343:350] '就' --> ' [UNK] '", - "replace text[84:86] --> decoded_text[351:364] '去了' --> ' [UNK] [UNK] '" - ], - "n_oov_chars": 49, - "oov_ratio": 0.5632183908045977, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"薪\", \"达\", \"万\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 里 有 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 [UNK] 心 [UNK] 的 , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , 我 [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] 出 [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", - "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", - "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", - "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", - "insert text[11:11] --> decoded_text[37:38] '' --> ' '", - "insert text[12:12] --> decoded_text[39:40] '' --> ' '", - "insert text[13:13] --> decoded_text[41:42] '' --> ' '", - "replace text[14:17] --> decoded_text[43:62] '个反派' --> ' [UNK] [UNK] [UNK] '", - "replace text[18:19] --> decoded_text[63:70] '物' --> ' [UNK] '", - "replace text[20:24] --> decoded_text[71:96] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", - "replace text[25:26] --> decoded_text[97:100] ',' --> ' , '", - "replace text[27:30] --> decoded_text[101:116] '般的坏' --> ' [UNK] 的 [UNK] '", - "replace text[31:33] --> decoded_text[117:130] '做坏' --> ' [UNK] [UNK] '", - "insert text[34:34] --> decoded_text[131:132] '' --> ' '", - "replace text[35:36] --> decoded_text[133:140] '是' --> ' [UNK] '", - "replace text[37:44] --> decoded_text[141:176] '虚的,但是这个' --> ' [UNK] 的 , [UNK] [UNK] [UNK] [UNK] '", - "replace text[45:49] --> decoded_text[177:202] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[50:50] --> decoded_text[203:204] '' --> ' '", - "replace text[51:59] --> decoded_text[205:246] '理得,理直气壮,' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , '", - "replace text[60:71] --> decoded_text[247:306] '遇到的这个的哥就是这样' --> ' [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[307:308] '' --> ' '", - "insert text[73:73] --> decoded_text[309:310] '' --> ' '", - "replace text[74:75] --> decoded_text[311:318] '先' --> ' [UNK] '", - "replace text[76:85] --> decoded_text[319:374] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "replace text[86:92] --> decoded_text[375:412] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", - "insert text[93:93] --> decoded_text[413:414] '' --> ' '", - "replace text[94:97] --> decoded_text[415:430] '来,昨' --> ' [UNK] , [UNK] '", - "insert text[98:98] --> decoded_text[431:432] '' --> ' '", - "replace text[99:100] --> decoded_text[433:440] '先' --> ' [UNK] '", - "replace text[101:103] --> decoded_text[441:454] '在搭' --> ' [UNK] [UNK] '", - "replace text[104:113] --> decoded_text[455:498] '租车时,遇到的的哥' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] '", - "replace text[114:115] --> decoded_text[499:506] '仅' --> ' [UNK] '", - "replace text[116:117] --> decoded_text[507:514] '拾' --> ' [UNK] '", - "replace text[118:120] --> decoded_text[515:528] '而昧' --> ' [UNK] [UNK] '", - "replace text[121:123] --> decoded_text[529:538] ',还' --> ' , [UNK] '", - "replace text[124:125] --> decoded_text[539:546] '昧' --> ' [UNK] '", - "replace text[126:131] --> decoded_text[547:578] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" - ], - "n_oov_chars": 79, - "oov_ratio": 0.5984848484848485, - "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] 代 [UNK] [UNK] 4s [UNK] [UNK] [UNK] , [UNK] 内 [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 元 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", + "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[122:123] '' --> ' '", + "insert text[42:42] --> decoded_text[124:125] '' --> ' '", + "replace text[43:48] --> decoded_text[126:157] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[158:159] '' --> ' '", + "replace text[50:55] --> decoded_text[160:191] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:57] --> decoded_text[192:199] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[200:219] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[220:221] '' --> ' '", + "replace text[63:67] --> decoded_text[222:247] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[248:267] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[72:75] --> decoded_text[268:287] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:79] --> decoded_text[288:307] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[308:309] '' --> ' '", + "replace text[81:83] --> decoded_text[310:323] '业务' --> ' [UNK] [UNK] '", + "replace text[84:88] --> decoded_text[324:349] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[89:89] --> decoded_text[350:351] '' --> ' '", + "insert text[90:90] --> decoded_text[352:353] '' --> ' '", + "insert text[91:91] --> decoded_text[354:355] '' --> ' '", + "replace text[92:94] --> decoded_text[356:369] '毕业' --> ' [UNK] [UNK] '", + "insert text[95:95] --> decoded_text[370:371] '' --> ' '", + "replace text[96:103] --> decoded_text[372:415] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[104:104] --> decoded_text[416:417] '' --> ' '", + "insert text[105:105] --> decoded_text[418:419] '' --> ' '", + "replace text[106:107] --> decoded_text[420:427] '资' --> ' [UNK] '", + "insert text[108:108] --> decoded_text[428:429] '' --> ' '", + "insert text[109:109] --> decoded_text[430:431] '' --> ' '", + "insert text[110:110] --> decoded_text[432:433] '' --> ' '", + "replace text[111:112] --> decoded_text[434:441] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[442:443] '' --> ' '", + "replace text[114:121] --> decoded_text[444:487] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[122:122] --> decoded_text[488:489] '' --> ' '", + "replace text[123:125] --> decoded_text[490:503] '传奇' --> ' [UNK] [UNK] '", + "insert text[126:126] --> decoded_text[504:505] '' --> ' '", + "replace text[127:128] --> decoded_text[506:513] '现' --> ' [UNK] '", + "replace text[129:131] --> decoded_text[514:527] '汽车' --> ' [UNK] [UNK] '", + "replace text[132:136] --> decoded_text[528:548] 'S店得知' --> 's [UNK] [UNK] [UNK] '", + "replace text[137:138] --> decoded_text[549:556] '店' --> ' [UNK] '", + "replace text[139:143] --> decoded_text[557:582] '朗动车型' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[144:148] --> decoded_text[583:608] '现车供应' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[149:158] --> decoded_text[609:664] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[159:159] --> decoded_text[665:666] '' --> ' '", + "insert text[163:163] --> decoded_text[670:671] '' --> ' '", + "replace text[164:168] --> decoded_text[672:697] '优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[169:171] --> decoded_text[698:711] '具体' --> ' [UNK] [UNK] '", + "replace text[172:174] --> decoded_text[712:725] '车型' --> ' [UNK] [UNK] '", + "replace text[175:181] --> decoded_text[726:763] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[764:771] '表' --> ' [UNK] '", + "insert text[184:184] --> decoded_text[772:773] '' --> ' '", + "replace text[185:189] --> decoded_text[774:799] '时感兴趣' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[190:196] --> decoded_text[800:837] '朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[847:854] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[858:871] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 121, + "oov_ratio": 0.5654205607476636, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"S\", \"店\", \"得\", \"知\", \"朗\", \"动\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 幸 福 [UNK] [UNK] [UNK] 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 的 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] 的 [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[33:34] '' --> ' '", + "insert text[10:10] --> decoded_text[35:36] '' --> ' '", + "replace text[11:14] --> decoded_text[37:56] '终点站' --> ' [UNK] [UNK] [UNK] '", + "insert text[15:15] --> decoded_text[57:58] '' --> ' '", + "replace text[16:19] --> decoded_text[59:78] '案例令' --> ' [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[79:80] '' --> ' '", + "replace text[21:27] --> decoded_text[81:118] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[28:35] --> decoded_text[119:162] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[163:176] '由于' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[177:178] '' --> ' '", + "replace text[40:48] --> decoded_text[179:228] '未能仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[229:242] '效期' --> ' [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[243:244] '' --> ' '", + "replace text[53:60] --> decoded_text[245:288] '对赴俄罗斯旅游' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[61:61] --> decoded_text[289:290] '' --> ' '", + "insert text[62:62] --> decoded_text[291:292] '' --> ' '", + "insert text[63:63] --> decoded_text[293:294] '' --> ' '", + "replace text[64:79] --> decoded_text[295:386] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:83] --> decoded_text[387:406] '在胡滨' --> ' [UNK] [UNK] [UNK] '", + "replace text[84:86] --> decoded_text[407:420] '协助' --> ' [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[421:422] '' --> ' '", + "replace text[88:90] --> decoded_text[423:436] '这对' --> ' [UNK] [UNK] '", + "replace text[91:96] --> decoded_text[437:468] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:99] --> decoded_text[469:482] '动魄' --> ' [UNK] [UNK] '", + "replace text[100:101] --> decoded_text[483:490] '3' --> ' [UNK] '", + "replace text[102:103] --> decoded_text[491:498] '时' --> ' [UNK] '", + "replace text[104:111] --> decoded_text[499:542] '终于在飞机起飞' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[543:550] '5' --> ' [UNK] '", + "replace text[114:115] --> decoded_text[551:558] '钟' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[559:566] '登' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[567:580] '返程' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[581:594] '航班' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 87, + "oov_ratio": 0.7016129032258065, + "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"终\", \"点\", \"站\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 德 江 [UNK] [UNK] [UNK] 中 [UNK] 示 , 中 法 [UNK] [UNK] [UNK] [UNK] [UNK] 中 法 [UNK] [UNK] [UNK] 大 国 家 [UNK] [UNK] [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 [UNK] 不 同 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:8] --> decoded_text[0:48] '招财带什么佛牌张' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[9:9] --> decoded_text[49:50] '' --> ' '", + "replace text[10:13] --> decoded_text[51:70] '在致辞' --> ' [UNK] [UNK] [UNK] '", + "replace text[14:15] --> decoded_text[71:78] '表' --> ' [UNK] '", + "insert text[16:16] --> decoded_text[79:80] '' --> ' '", + "insert text[17:17] --> decoded_text[81:82] '' --> ' '", + "insert text[18:18] --> decoded_text[83:84] '' --> ' '", + "replace text[19:24] --> decoded_text[85:116] '建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[117:118] '' --> ' '", + "replace text[26:29] --> decoded_text[119:138] '两个伟' --> ' [UNK] [UNK] [UNK] '", + "insert text[30:30] --> decoded_text[139:140] '' --> ' '", + "insert text[31:31] --> decoded_text[141:142] '' --> ' '", + "replace text[32:36] --> decoded_text[143:168] '友好关系' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[169:170] '' --> ' '", + "replace text[38:39] --> decoded_text[171:178] '纪' --> ' [UNK] '", + "insert text[40:40] --> decoded_text[179:180] '' --> ' '", + "replace text[41:42] --> decoded_text[181:188] '树' --> ' [UNK] '", + "replace text[43:44] --> decoded_text[189:196] '了' --> ' [UNK] '", + "insert text[45:45] --> decoded_text[197:198] '' --> ' '", + "insert text[46:46] --> decoded_text[199:200] '' --> ' '", + "insert text[47:47] --> decoded_text[201:202] '' --> ' '", + "replace text[48:50] --> decoded_text[203:216] '制度' --> ' [UNK] [UNK] '", + "insert text[51:51] --> decoded_text[217:218] '' --> ' '", + "insert text[52:52] --> decoded_text[219:220] '' --> ' '", + "insert text[53:53] --> decoded_text[221:222] '' --> ' '", + "replace text[54:56] --> decoded_text[223:236] '共处' --> ' [UNK] [UNK] '", + "insert text[57:57] --> decoded_text[237:238] '' --> ' '", + "replace text[58:60] --> decoded_text[239:252] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[253:260] '对' --> ' [UNK] '", + "replace text[63:69] --> decoded_text[261:298] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[299:312] '了重' --> ' [UNK] [UNK] '", + "replace text[73:76] --> decoded_text[313:332] '而深远' --> ' [UNK] [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[333:346] '影响' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 47, + "oov_ratio": 0.5875, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"在\", \"致\", \"辞\", \"表\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"友\", \"好\", \"关\", \"系\", \"纪\", \"树\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 英 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] 成 [UNK] [UNK] 合 国 [UNK] [UNK] 帝 [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] 帝 [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[12:12] --> decoded_text[67:68] '' --> ' '", + "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", + "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", + "insert text[31:31] --> decoded_text[161:162] '' --> ' '", + "insert text[32:32] --> decoded_text[163:164] '' --> ' '", + "insert text[33:33] --> decoded_text[165:166] '' --> ' '", + "insert text[34:34] --> decoded_text[167:168] '' --> ' '", + "replace text[35:37] --> decoded_text[169:182] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[183:184] '' --> ' '", + "insert text[39:39] --> decoded_text[185:186] '' --> ' '", + "replace text[40:42] --> decoded_text[187:200] '工作' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[201:202] '' --> ' '", + "insert text[47:47] --> decoded_text[206:207] '' --> ' '", + "insert text[48:48] --> decoded_text[208:209] '' --> ' '", + "replace text[49:50] --> decoded_text[210:217] '他' --> ' [UNK] '", + "replace text[51:53] --> decoded_text[218:231] '为联' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[232:233] '' --> ' '", + "replace text[55:57] --> decoded_text[234:247] '驻东' --> ' [UNK] [UNK] '", + "replace text[58:59] --> decoded_text[248:255] '汶' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[256:263] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[264:271] '令' --> ' [UNK] '", + "replace text[64:67] --> decoded_text[272:291] '监督东' --> ' [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[292:311] '汶向独' --> ' [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[312:313] '' --> ' '", + "insert text[73:73] --> decoded_text[314:315] '' --> ' '", + "insert text[74:74] --> decoded_text[316:317] '' --> ' '", + "replace text[75:77] --> decoded_text[318:331] '过渡' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 45, + "oov_ratio": 0.5769230769230769, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"印\", \"度\", \"工\", \"作\", \"他\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] 成 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 会 [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] 介 [UNK] 二 人 出 [UNK] , 保 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 歌 《 queenieeye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 photograph 》 , [UNK] [UNK] 歌 [UNK] [UNK] [UNK] [UNK] 日 的 美 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:7] --> decoded_text[8:21] '电据' --> ' [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[22:29] '港' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[30:31] '' --> ' '", + "replace text[11:12] --> decoded_text[32:39] '报' --> ' [UNK] '", + "replace text[13:15] --> decoded_text[40:53] '消息' --> ' [UNK] [UNK] '", + "replace text[16:21] --> decoded_text[54:85] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[86:99] '进军' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[100:101] '' --> ' '", + "replace text[26:30] --> decoded_text[102:127] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[129:136] '周' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[137:138] '' --> ' '", + "replace text[35:37] --> decoded_text[139:152] '纪念' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[153:154] '' --> ' '", + "insert text[39:39] --> decoded_text[155:156] '' --> ' '", + "replace text[40:42] --> decoded_text[157:170] '格莱' --> ' [UNK] [UNK] '", + "replace text[43:45] --> decoded_text[171:184] '向两' --> ' [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[185:198] '仅存' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[199:206] '员' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[207:208] '' --> ' '", + "replace text[52:58] --> decoded_text[209:246] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[247:248] '' --> ' '", + "replace text[60:61] --> decoded_text[249:256] '达' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[257:259] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[263:264] 'S' --> 's'", + "insert text[72:72] --> decoded_text[268:269] '' --> ' '", + "replace text[73:77] --> decoded_text[270:295] '颁发终身' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[78:80] --> decoded_text[296:309] '就奖' --> ' [UNK] [UNK] '", + "replace text[81:87] --> decoded_text[310:347] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[88:93] --> decoded_text[348:379] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[94:94] --> decoded_text[380:381] '' --> ' '", + "insert text[95:95] --> decoded_text[382:383] '' --> ' '", + "insert text[96:96] --> decoded_text[384:385] '' --> ' '", + "replace text[97:99] --> decoded_text[386:399] '请来' --> ' [UNK] [UNK] '", + "replace text[100:106] --> decoded_text[400:437] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[438:439] '' --> ' '", + "replace text[108:111] --> decoded_text[440:459] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[460:462] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[466:467] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[473:474] '' --> ' '", + "replace text[125:127] --> decoded_text[475:488] '负责' --> ' [UNK] [UNK] '", + "replace text[128:129] --> decoded_text[489:496] '绍' --> ' [UNK] '", + "insert text[130:130] --> decoded_text[497:498] '' --> ' '", + "insert text[131:131] --> decoded_text[499:500] '' --> ' '", + "replace text[132:133] --> decoded_text[501:508] '场' --> ' [UNK] '", + "insert text[134:134] --> decoded_text[509:510] '' --> ' '", + "replace text[135:139] --> decoded_text[511:536] '罗在拍档' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[140:142] --> decoded_text[537:550] '鼓声' --> ' [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[551:558] '应' --> ' [UNK] '", + "insert text[145:145] --> decoded_text[559:560] '' --> ' '", + "replace text[146:149] --> decoded_text[561:580] '先献唱' --> ' [UNK] [UNK] [UNK] '", + "insert text[150:150] --> decoded_text[581:582] '' --> ' '", + "insert text[151:151] --> decoded_text[583:584] '' --> ' '", + "replace text[152:153] --> decoded_text[585:587] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[593:594] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[596:597] '' --> ' '", + "insert text[163:163] --> decoded_text[598:599] '' --> ' '", + "replace text[164:174] --> decoded_text[600:661] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[175:176] --> decoded_text[662:664] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[673:674] '' --> ' '", + "insert text[186:186] --> decoded_text[675:676] '' --> ' '", + "replace text[187:189] --> decoded_text[677:690] '带领' --> ' [UNK] [UNK] '", + "replace text[190:194] --> decoded_text[691:716] '迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[195:195] --> decoded_text[717:718] '' --> ' '", + "insert text[196:196] --> decoded_text[719:720] '' --> ' '", + "replace text[197:200] --> decoded_text[721:740] '好情怀' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 102, + "oov_ratio": 0.5074626865671642, + "oov_charset": "[\"电\", \"据\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] 里 有 [UNK] [UNK] [UNK] 目 的 地 [UNK] , [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] 14 元 , [UNK] 司 [UNK] [UNK] [UNK] 21 元 , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 元 , [UNK] [UNK] 之 前 [UNK] [UNK] 的 1 元 , [UNK] [UNK] [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", + "diff": [ + "replace text[0:4] --> decoded_text[0:24] '佛牌绳哪' --> '[UNK] [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[25:26] '' --> ' '", + "replace text[6:9] --> decoded_text[27:46] '卖到达' --> ' [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[47:48] '' --> ' '", + "insert text[11:11] --> decoded_text[49:50] '' --> ' '", + "replace text[12:18] --> decoded_text[51:84] '后,记者全程' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[19:23] --> decoded_text[85:110] '总车费是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:28] --> decoded_text[112:123] '元,但' --> ' 元 , [UNK] '", + "replace text[29:32] --> decoded_text[124:143] '机到账' --> ' [UNK] [UNK] [UNK] '", + "replace text[34:39] --> decoded_text[145:164] '元,因此,' --> ' 元 , [UNK] [UNK] , '", + "replace text[40:44] --> decoded_text[165:190] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[191:208] '元,除去' --> ' 元 , [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[209:210] '' --> ' '", + "replace text[51:53] --> decoded_text[211:224] '支付' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[225:226] '' --> ' '", + "replace text[55:61] --> decoded_text[227:256] '元,记者净赚' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:69] --> decoded_text[257:292] '元,还免费乘了' --> ' 元 , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:73] --> decoded_text[293:312] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:76] --> decoded_text[314:317] '元' --> ' 元 '", + "replace text[77:78] --> decoded_text[318:325] '车' --> ' [UNK] '" + ], + "n_oov_chars": 43, + "oov_ratio": 0.5443037974683544, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"卖\", \"到\", \"达\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] 五 [UNK] 公 司 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] 春 )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[42:43] '' --> ' '", + "insert text[12:12] --> decoded_text[44:45] '' --> ' '", + "replace text[13:18] --> decoded_text[46:77] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[78:79] '' --> ' '", + "replace text[20:25] --> decoded_text[80:111] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[26:27] --> decoded_text[112:119] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[120:139] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[140:141] '' --> ' '", + "replace text[33:37] --> decoded_text[142:167] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[168:187] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[188:207] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:49] --> decoded_text[208:227] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[228:229] '' --> ' '", + "replace text[51:53] --> decoded_text[230:243] '业务' --> ' [UNK] [UNK] '", + "replace text[54:58] --> decoded_text[244:269] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[270:271] '' --> ' '", + "insert text[60:60] --> decoded_text[272:273] '' --> ' '", + "insert text[61:61] --> decoded_text[274:275] '' --> ' '", + "replace text[62:64] --> decoded_text[276:289] '毕业' --> ' [UNK] [UNK] '", + "insert text[65:65] --> decoded_text[290:291] '' --> ' '", + "replace text[66:73] --> decoded_text[292:335] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[74:74] --> decoded_text[336:337] '' --> ' '", + "insert text[75:75] --> decoded_text[338:339] '' --> ' '", + "replace text[76:77] --> decoded_text[340:347] '资' --> ' [UNK] '", + "insert text[78:78] --> decoded_text[348:349] '' --> ' '", + "insert text[79:79] --> decoded_text[350:351] '' --> ' '", + "replace text[80:83] --> decoded_text[352:371] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[372:373] '' --> ' '", + "replace text[85:88] --> decoded_text[374:393] '汽通用' --> ' [UNK] [UNK] [UNK] '", + "replace text[89:90] --> decoded_text[394:401] '菱' --> ' [UNK] '", + "insert text[91:91] --> decoded_text[402:403] '' --> ' '", + "insert text[92:92] --> decoded_text[404:405] '' --> ' '", + "replace text[93:104] --> decoded_text[406:473] '副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[474:475] '' --> ' '", + "insert text[106:106] --> decoded_text[476:477] '' --> ' '", + "replace text[107:109] --> decoded_text[478:491] '总裁' --> ' [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[492:493] '' --> ' '", + "insert text[111:111] --> decoded_text[494:495] '' --> ' '", + "replace text[112:113] --> decoded_text[496:503] '赵' --> ' [UNK] '", + "insert text[114:114] --> decoded_text[504:505] '' --> ' '" + ], + "n_oov_chars": 70, + "oov_ratio": 0.6086956521739131, + "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"副\", \"裁\", \"菱\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] 部 [UNK] [UNK] 都 [UNK] [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 也 [UNK] 人 , 不 [UNK] 神 , 人 [UNK] 有 [UNK] [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 春 [UNK] , [UNK] 我 也 [UNK] [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] [UNK] 不 [UNK] ? ” [UNK] 也 [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 也 不 一 定 有 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", + "replace text[5:8] --> decoded_text[21:40] '可能每' --> ' [UNK] [UNK] [UNK] '", + "replace text[9:11] --> decoded_text[41:54] '作品' --> ' [UNK] [UNK] '", + "replace text[12:16] --> decoded_text[55:80] '是你喜欢' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[17:18] --> decoded_text[81:88] '东' --> ' [UNK] '", + "replace text[19:23] --> decoded_text[89:110] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "replace text[24:27] --> decoded_text[111:130] '时控制' --> ' [UNK] [UNK] [UNK] '", + "replace text[28:37] --> decoded_text[131:182] '住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:39] --> decoded_text[183:190] '他' --> ' [UNK] '", + "replace text[40:41] --> decoded_text[191:198] '是' --> ' [UNK] '", + "replace text[42:43] --> decoded_text[199:202] ',' --> ' , '", + "replace text[44:45] --> decoded_text[203:210] '是' --> ' [UNK] '", + "replace text[46:47] --> decoded_text[211:214] ',' --> ' , '", + "replace text[48:49] --> decoded_text[215:222] '就' --> ' [UNK] '", + "replace text[50:52] --> decoded_text[223:236] '自己' --> ' [UNK] [UNK] '", + "replace text[53:55] --> decoded_text[237:250] '脾气' --> ' [UNK] [UNK] '", + "replace text[56:61] --> decoded_text[251:282] '他这次执导' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:65] --> decoded_text[283:298] '晚,对' --> ' [UNK] , [UNK] '", + "insert text[66:66] --> decoded_text[299:300] '' --> ' '", + "replace text[67:69] --> decoded_text[301:314] '开骂' --> ' [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[315:316] '' --> ' '", + "replace text[71:74] --> decoded_text[317:332] '老毕,' --> ' [UNK] [UNK] , '", + "replace text[75:88] --> decoded_text[333:408] '跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[409:448] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:103] --> decoded_text[449:482] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[104:108] --> decoded_text[483:508] '较死劲是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[109:110] --> decoded_text[509:516] '是' --> ' [UNK] '", + "insert text[111:111] --> decoded_text[517:518] '' --> ' '", + "replace text[112:113] --> decoded_text[519:526] '这' --> ' [UNK] '", + "replace text[114:116] --> decoded_text[527:540] '是骂' --> ' [UNK] [UNK] '", + "insert text[117:117] --> decoded_text[541:542] '' --> ' '", + "replace text[118:129] --> decoded_text[543:606] '但因为你非常了解他,他' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", + "insert text[130:130] --> decoded_text[607:608] '' --> ' '", + "insert text[131:131] --> decoded_text[609:610] '' --> ' '", + "insert text[132:132] --> decoded_text[611:612] '' --> ' '", + "insert text[133:133] --> decoded_text[613:614] '' --> ' '", + "replace text[134:136] --> decoded_text[615:628] '恶意' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 89, + "oov_ratio": 0.6496350364963503, + "oov_charset": "[\"腕\", \"导\", \"演\", \"可\", \"能\", \"每\", \"作\", \"品\", \"是\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"晚\", \"对\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"但\", \"因\", \"为\", \"常\", \"解\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 也 花 [UNK] [UNK] 。 有 [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] 的 年 [UNK] 高 [UNK] 360 [UNK] 元 人 民 [UNK] , 李 [UNK] [UNK] 年 的 花 [UNK] [UNK] 600 [UNK] [UNK] 元 。 [UNK] 一 [UNK] [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] 元 [UNK] 出 [UNK] [UNK] 。", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '招财带什么佛牌' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[8:15] --> decoded_text[43:82] '过挣得多,娜姐' --> ' [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] '", + "insert text[16:16] --> decoded_text[83:84] '' --> ' '", + "replace text[17:19] --> decoded_text[85:98] '得多' --> ' [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[99:100] '' --> ' '", + "replace text[21:24] --> decoded_text[101:120] '媒体报' --> ' [UNK] [UNK] [UNK] '", + "replace text[25:31] --> decoded_text[121:154] ',教练卡洛斯' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[155:156] '' --> ' '", + "replace text[33:34] --> decoded_text[157:164] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[165:172] '达' --> ' [UNK] '", + "replace text[39:40] --> decoded_text[175:182] '万' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[183:184] '' --> ' '", + "insert text[42:42] --> decoded_text[185:186] '' --> ' '", + "replace text[43:45] --> decoded_text[187:196] '币,' --> ' [UNK] , '", + "replace text[46:48] --> decoded_text[197:210] '娜每' --> ' [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[211:212] '' --> ' '", + "insert text[50:50] --> decoded_text[213:214] '' --> ' '", + "replace text[51:53] --> decoded_text[215:228] '费是' --> ' [UNK] [UNK] '", + "replace text[56:58] --> decoded_text[231:244] '多万' --> ' [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[245:246] '' --> ' '", + "replace text[60:61] --> decoded_text[247:254] '用' --> ' [UNK] '", + "replace text[62:65] --> decoded_text[255:274] '个形象' --> ' [UNK] [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[275:276] '' --> ' '", + "replace text[67:72] --> decoded_text[277:304] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[305:306] '' --> ' '", + "replace text[74:79] --> decoded_text[307:334] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "replace text[80:81] --> decoded_text[335:342] '万' --> ' [UNK] '", + "replace text[82:83] --> decoded_text[343:350] '就' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[351:364] '去了' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 49, + "oov_ratio": 0.5632183908045977, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"薪\", \"达\", \"万\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 里 有 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 [UNK] 心 [UNK] 的 , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , 我 [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] 出 [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", + "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[37:38] '' --> ' '", + "insert text[12:12] --> decoded_text[39:40] '' --> ' '", + "insert text[13:13] --> decoded_text[41:42] '' --> ' '", + "replace text[14:17] --> decoded_text[43:62] '个反派' --> ' [UNK] [UNK] [UNK] '", + "replace text[18:19] --> decoded_text[63:70] '物' --> ' [UNK] '", + "replace text[20:24] --> decoded_text[71:96] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:26] --> decoded_text[97:100] ',' --> ' , '", + "replace text[27:30] --> decoded_text[101:116] '般的坏' --> ' [UNK] 的 [UNK] '", + "replace text[31:33] --> decoded_text[117:130] '做坏' --> ' [UNK] [UNK] '", + "insert text[34:34] --> decoded_text[131:132] '' --> ' '", + "replace text[35:36] --> decoded_text[133:140] '是' --> ' [UNK] '", + "replace text[37:44] --> decoded_text[141:176] '虚的,但是这个' --> ' [UNK] 的 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[177:202] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[203:204] '' --> ' '", + "replace text[51:59] --> decoded_text[205:246] '理得,理直气壮,' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , '", + "replace text[60:71] --> decoded_text[247:306] '遇到的这个的哥就是这样' --> ' [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[307:308] '' --> ' '", + "insert text[73:73] --> decoded_text[309:310] '' --> ' '", + "replace text[74:75] --> decoded_text[311:318] '先' --> ' [UNK] '", + "replace text[76:85] --> decoded_text[319:374] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[86:92] --> decoded_text[375:412] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[413:414] '' --> ' '", + "replace text[94:97] --> decoded_text[415:430] '来,昨' --> ' [UNK] , [UNK] '", + "insert text[98:98] --> decoded_text[431:432] '' --> ' '", + "replace text[99:100] --> decoded_text[433:440] '先' --> ' [UNK] '", + "replace text[101:103] --> decoded_text[441:454] '在搭' --> ' [UNK] [UNK] '", + "replace text[104:113] --> decoded_text[455:498] '租车时,遇到的的哥' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] '", + "replace text[114:115] --> decoded_text[499:506] '仅' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[507:514] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[515:528] '而昧' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[529:538] ',还' --> ' , [UNK] '", + "replace text[124:125] --> decoded_text[539:546] '昧' --> ' [UNK] '", + "replace text[126:131] --> decoded_text[547:578] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 79, + "oov_ratio": 0.5984848484848485, + "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.en.diff.json b/stats/compression_rate/google.mt5-large @ cc100.en.diff.json index 72eec86c45285f3c45ecfe33de13e00128260ad0..df3071b4b9996c68f6797fe6b811d113e02b3d45 100644 --- a/stats/compression_rate/google.mt5-large @ cc100.en.diff.json +++ b/stats/compression_rate/google.mt5-large @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.es.diff.json b/stats/compression_rate/google.mt5-large @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/google.mt5-large @ cc100.es.diff.json +++ b/stats/compression_rate/google.mt5-large @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json b/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json index 70c1c0795c35a30bf3faa61e7f45b03db2b05262..f508125feaff3095c8d1fbc5a236502b6d67e967 100644 --- a/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json +++ b/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json index 6755d9364dbcd5976c6bf0e7b19fdafa0e303465..a316a22b3025cdbe5307446b015bc7f586f767a4 100644 --- a/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json @@ -1,155 +1,155 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.037383177570093455, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json index f94df4d41c4051709613f43568a36983d6e9d31e..b804297bd277e1df5e81b7ee4fc18b81d0b8ea3f 100644 --- a/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "Hope you are OK and have got over the stress of your trip now <3", - "decoded_text": "Hope you are OK and have got over the stress of your trip now 3", - "diff": [ - "insert text[63:63] --> decoded_text[63:67] '' --> 'unk>'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015625, - "oov_charset": "[\"<\"]" - }, - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "Would love some tatts, but too much of a wimp to get them! 😥", - "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", - "diff": [ - "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"😥\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Hope you are OK and have got over the stress of your trip now <3", + "decoded_text": "Hope you are OK and have got over the stress of your trip now 3", + "diff": [ + "insert text[63:63] --> decoded_text[63:67] '' --> 'unk>'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015625, + "oov_charset": "[\"<\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json index 8e063bbe0b425a09019eda226c84d7531ab86503..c7b278a8a51b7437e8c9b4294e0bf948b5446e97 100644 --- a/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ^^", - "decoded_text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ", - "diff": [ - "replace text[96:98] --> decoded_text[96:101] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"^\"]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ^^", - "decoded_text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ", - "diff": [ - "replace text[144:146] --> decoded_text[144:149] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.0136986301369863, - "oov_charset": "[\"^\"]" - }, - { - "text": "haha merci pour ta réponse ^^ (je me demande si on devrait compter les jolies filles comme contact physique)", - "decoded_text": "haha merci pour ta réponse (je me demande si on devrait compter les jolies filles comme contact physique)", - "diff": [ - "replace text[27:29] --> decoded_text[27:32] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.018518518518518517, - "oov_charset": "[\"^\"]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''", - "replace text[66:68] --> decoded_text[65:70] '^^' --> ''" - ], - "n_oov_chars": 2, - "oov_ratio": 0.029411764705882353, - "oov_charset": "[\"^\"]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Peut-on poser de la mosaïque de verre au sol?", - "decoded_text": "Peut-on poser de la mosaque de verre au sol?", - "diff": [ - "replace text[24:25] --> decoded_text[24:29] 'ï' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.022222222222222223, - "oov_charset": "[\"ï\"]" - }, - { - "text": "Comment pose-t-on de la mosaïque de pâte de verre montée sur papier?", - "decoded_text": "Comment pose-t-on de la mosaque de pâte de verre montée sur papier?", - "diff": [ - "replace text[28:29] --> decoded_text[28:33] 'ï' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.014705882352941176, - "oov_charset": "[\"ï\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ^^", + "decoded_text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ", + "diff": [ + "replace text[96:98] --> decoded_text[96:101] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"^\"]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ^^", + "decoded_text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ", + "diff": [ + "replace text[144:146] --> decoded_text[144:149] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0136986301369863, + "oov_charset": "[\"^\"]" + }, + { + "text": "haha merci pour ta réponse ^^ (je me demande si on devrait compter les jolies filles comme contact physique)", + "decoded_text": "haha merci pour ta réponse (je me demande si on devrait compter les jolies filles comme contact physique)", + "diff": [ + "replace text[27:29] --> decoded_text[27:32] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"^\"]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''", + "replace text[66:68] --> decoded_text[65:70] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"^\"]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Peut-on poser de la mosaïque de verre au sol?", + "decoded_text": "Peut-on poser de la mosaque de verre au sol?", + "diff": [ + "replace text[24:25] --> decoded_text[24:29] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"ï\"]" + }, + { + "text": "Comment pose-t-on de la mosaïque de pâte de verre montée sur papier?", + "decoded_text": "Comment pose-t-on de la mosaque de pâte de verre montée sur papier?", + "diff": [ + "replace text[28:29] --> decoded_text[28:33] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"ï\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json index 61325e98b576ba2d47fffdc15aa2819c85874f60..2427bd7229a677872ae6033aff1c07c74a860963 100644 --- a/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json @@ -1,138 +1,138 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "(www.suzastampin.com)2012,,,4S,,6000,,40081122333456:", - "diff": [ - "replace text[0:9] --> decoded_text[0:5] '卍招财带什么佛牌卍' --> ''", - "replace text[30:37] --> decoded_text[26:31] '卡尔・斯利姆于' --> ''", - "replace text[41:131] --> decoded_text[35:58] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,,'", - "replace text[133:159] --> decoded_text[60:77] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',,'", - "replace text[163:196] --> decoded_text[81:98] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',,'", - "replace text[206:207] --> decoded_text[108:113] '转' --> ''", - "replace text[211:214] --> decoded_text[117:123] '详询:' --> ':'" - ], - "n_oov_chars": 169, - "oov_ratio": 0.7897196261682243, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": ",,3,5,", - "diff": [ - "replace text[0:124] --> decoded_text[0:41] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',,3,5,'" - ], - "n_oov_chars": 124, - "oov_ratio": 1.0, - "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": ",,,", - "diff": [ - "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" - ], - "n_oov_chars": 80, - "oov_ratio": 1.0, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": ",1999,,", - "diff": [ - "replace text[0:43] --> decoded_text[0:11] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ','", - "replace text[47:78] --> decoded_text[15:32] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" - ], - "n_oov_chars": 74, - "oov_ratio": 0.9487179487179487, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "128,50,:(RingoStarr),,••(JuliaRoberts),,QueenieEye,Photograph,", - "diff": [ - "replace text[1:2] --> decoded_text[1:6] '月' --> ''", - "replace text[4:30] --> decoded_text[8:19] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ','", - "replace text[32:61] --> decoded_text[21:38] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ',:'", - "replace text[73:106] --> decoded_text[50:67] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',,'", - "replace text[108:111] --> decoded_text[69:74] '罗伯茨' --> ''", - "replace text[125:152] --> decoded_text[88:105] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',,'", - "replace text[162:175] --> decoded_text[115:126] '》,然后轮到后者演绎旧作《' --> ','", - "replace text[185:201] --> decoded_text[136:147] '》,带领歌迷重温昔日的美好情怀。' --> ','" - ], - "n_oov_chars": 148, - "oov_ratio": 0.736318407960199, - "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": ",14,21,,7,1,6,14", - "diff": [ - "replace text[0:23] --> decoded_text[0:11] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ','", - "replace text[25:32] --> decoded_text[13:24] '元,但司机到账' --> ','", - "replace text[34:44] --> decoded_text[26:43] '元,因此,司机给记者' --> ',,'", - "replace text[45:54] --> decoded_text[44:55] '元,除去之前支付的' --> ','", - "replace text[55:61] --> decoded_text[56:67] '元,记者净赚' --> ','", - "replace text[62:73] --> decoded_text[68:79] '元,还免费乘了本应支付' --> ','", - "replace text[75:79] --> decoded_text[81:86] '元的车。' --> ''" - ], - "n_oov_chars": 70, - "oov_ratio": 0.8860759493670886, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "2012,,,()", - "diff": [ - "replace text[0:7] --> decoded_text[0:5] '卡尔・斯利姆于' --> ''", - "replace text[11:110] --> decoded_text[9:32] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,,'", - "replace text[111:114] --> decoded_text[33:38] '方赵春' --> ''" - ], - "n_oov_chars": 109, - "oov_ratio": 0.9478260869565217, - "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": ",,,,,:“,,2,1,?”,", - "diff": [ - "replace text[0:70] --> decoded_text[0:36] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,,:'", - "replace text[71:88] --> decoded_text[37:54] '老毕,我跟你说了这么长时间,让你走' --> ',,'", - "replace text[89:96] --> decoded_text[55:66] '号位,你非要走' --> ','", - "replace text[97:111] --> decoded_text[67:79] '号位,你想跟我较死劲是不是?' --> ',?'", - "replace text[112:137] --> decoded_text[80:91] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" - ], - "n_oov_chars": 133, - "oov_ratio": 0.9708029197080292, - "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": ",,360,600,,2", - "diff": [ - "replace text[0:36] --> decoded_text[0:17] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',,'", - "replace text[39:53] --> decoded_text[20:31] '万元人民币,李娜每年的花费是' --> ','", - "replace text[56:79] --> decoded_text[34:51] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',,'", - "replace text[80:87] --> decoded_text[52:57] '万元就出去了。' --> ''" - ], - "n_oov_chars": 80, - "oov_ratio": 0.9195402298850575, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“’,,,,,,”,", - "diff": [ - "replace text[1:19] --> decoded_text[1:6] '金庸的小说《连城诀》里有一个反派人物' --> ''", - "replace text[20:24] --> decoded_text[7:12] '血刀老祖' --> ''", - "replace text[25:72] --> decoded_text[13:37] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,,'", - "replace text[73:115] --> decoded_text[38:55] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',,'", - "replace text[116:120] --> decoded_text[56:61] '拾金而昧' --> ''", - "replace text[121:123] --> decoded_text[62:68] ',还' --> ','", - "replace text[124:125] --> decoded_text[69:74] '昧' --> ''", - "replace text[126:132] --> decoded_text[75:80] '得理直气壮。' --> ''" - ], - "n_oov_chars": 124, - "oov_ratio": 0.9393939393939394, - "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "(www.suzastampin.com)2012,,,4S,,6000,,40081122333456:", + "diff": [ + "replace text[0:9] --> decoded_text[0:5] '卍招财带什么佛牌卍' --> ''", + "replace text[30:37] --> decoded_text[26:31] '卡尔・斯利姆于' --> ''", + "replace text[41:131] --> decoded_text[35:58] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,,'", + "replace text[133:159] --> decoded_text[60:77] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',,'", + "replace text[163:196] --> decoded_text[81:98] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',,'", + "replace text[206:207] --> decoded_text[108:113] '转' --> ''", + "replace text[211:214] --> decoded_text[117:123] '详询:' --> ':'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": ",,3,5,", + "diff": [ + "replace text[0:124] --> decoded_text[0:41] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',,3,5,'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": ",,,", + "diff": [ + "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": ",1999,,", + "diff": [ + "replace text[0:43] --> decoded_text[0:11] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ','", + "replace text[47:78] --> decoded_text[15:32] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "128,50,:(RingoStarr),,••(JuliaRoberts),,QueenieEye,Photograph,", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] '月' --> ''", + "replace text[4:30] --> decoded_text[8:19] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ','", + "replace text[32:61] --> decoded_text[21:38] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ',:'", + "replace text[73:106] --> decoded_text[50:67] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',,'", + "replace text[108:111] --> decoded_text[69:74] '罗伯茨' --> ''", + "replace text[125:152] --> decoded_text[88:105] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',,'", + "replace text[162:175] --> decoded_text[115:126] '》,然后轮到后者演绎旧作《' --> ','", + "replace text[185:201] --> decoded_text[136:147] '》,带领歌迷重温昔日的美好情怀。' --> ','" + ], + "n_oov_chars": 148, + "oov_ratio": 0.736318407960199, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": ",14,21,,7,1,6,14", + "diff": [ + "replace text[0:23] --> decoded_text[0:11] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ','", + "replace text[25:32] --> decoded_text[13:24] '元,但司机到账' --> ','", + "replace text[34:44] --> decoded_text[26:43] '元,因此,司机给记者' --> ',,'", + "replace text[45:54] --> decoded_text[44:55] '元,除去之前支付的' --> ','", + "replace text[55:61] --> decoded_text[56:67] '元,记者净赚' --> ','", + "replace text[62:73] --> decoded_text[68:79] '元,还免费乘了本应支付' --> ','", + "replace text[75:79] --> decoded_text[81:86] '元的车。' --> ''" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "2012,,,()", + "diff": [ + "replace text[0:7] --> decoded_text[0:5] '卡尔・斯利姆于' --> ''", + "replace text[11:110] --> decoded_text[9:32] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,,'", + "replace text[111:114] --> decoded_text[33:38] '方赵春' --> ''" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": ",,,,,:“,,2,1,?”,", + "diff": [ + "replace text[0:70] --> decoded_text[0:36] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,,:'", + "replace text[71:88] --> decoded_text[37:54] '老毕,我跟你说了这么长时间,让你走' --> ',,'", + "replace text[89:96] --> decoded_text[55:66] '号位,你非要走' --> ','", + "replace text[97:111] --> decoded_text[67:79] '号位,你想跟我较死劲是不是?' --> ',?'", + "replace text[112:137] --> decoded_text[80:91] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": ",,360,600,,2", + "diff": [ + "replace text[0:36] --> decoded_text[0:17] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',,'", + "replace text[39:53] --> decoded_text[20:31] '万元人民币,李娜每年的花费是' --> ','", + "replace text[56:79] --> decoded_text[34:51] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',,'", + "replace text[80:87] --> decoded_text[52:57] '万元就出去了。' --> ''" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“’,,,,,,”,", + "diff": [ + "replace text[1:19] --> decoded_text[1:6] '金庸的小说《连城诀》里有一个反派人物' --> ''", + "replace text[20:24] --> decoded_text[7:12] '血刀老祖' --> ''", + "replace text[25:72] --> decoded_text[13:37] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,,'", + "replace text[73:115] --> decoded_text[38:55] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',,'", + "replace text[116:120] --> decoded_text[56:61] '拾金而昧' --> ''", + "replace text[121:123] --> decoded_text[62:68] ',还' --> ','", + "replace text[124:125] --> decoded_text[69:74] '昧' --> ''", + "replace text[126:132] --> decoded_text[75:80] '得理直气壮。' --> ''" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json index 2052c272f33e755947e689792b84ec62ed7ccd94..3674974ae315b571560cf595e34db5507992d6fe 100644 --- a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json @@ -1,281 +1,281 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "diff": [ - "insert text[8:8] --> decoded_text[8:10] '' --> ' '", - "replace text[15:24] --> decoded_text[17:34] 'is on the' --> ' is on the '", - "replace text[32:35] --> decoded_text[42:49] 'for' --> ' for '", - "replace text[40:58] --> decoded_text[54:80] 'million and boasts' --> ' million and boasts '", - "insert text[66:66] --> decoded_text[88:90] '' --> ' '", - "insert text[74:74] --> decoded_text[98:100] '' --> ' '", - "replace text[81:88] --> decoded_text[107:120] 'feet of' --> ' feet of '", - "replace text[99:121] --> decoded_text[131:161] 'finishes and elaborate' --> ' finishes and elaborate '", - "replace text[135:137] --> decoded_text[175:181] 'on' --> ' on '", - "insert text[143:143] --> decoded_text[187:189] '' --> ' '", - "insert text[150:150] --> decoded_text[196:198] '' --> ' '", - "replace text[157:159] --> decoded_text[205:211] 'on' --> ' on '", - "replace text[170:181] --> decoded_text[222:241] 'the home is' --> ' the home is '", - "replace text[188:195] --> decoded_text[248:261] 'sold by' --> ' sold by '", - "replace text[205:221] --> decoded_text[271:295] 'real estate firm' --> ' real estate firm '", - "insert text[232:232] --> decoded_text[306:308] '' --> ' '", - "insert text[246:246] --> decoded_text[322:324] '' --> ' '", - "insert text[253:253] --> decoded_text[331:333] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "diff": [ - "replace text[8:11] --> decoded_text[8:15] 'the' --> ' the '", - "insert text[16:16] --> decoded_text[20:22] '' --> ' '", - "insert text[23:23] --> decoded_text[29:31] '' --> ' '", - "replace text[27:37] --> decoded_text[35:51] 'homes that' --> ' homes that '", - "insert text[43:43] --> decoded_text[57:59] '' --> ' '", - "replace text[48:51] --> decoded_text[64:71] 'for' --> ' for '", - "insert text[56:56] --> decoded_text[76:78] '' --> ' '", - "insert text[64:64] --> decoded_text[86:88] '' --> ' '", - "insert text[69:69] --> decoded_text[93:95] '' --> ' '", - "insert text[77:77] --> decoded_text[103:105] '' --> ' '", - "replace text[82:89] --> decoded_text[110:121] 'million' --> ' million '", - "replace text[94:98] --> decoded_text[126:134] 'this' --> ' this '", - "insert text[104:104] --> decoded_text[140:142] '' --> ' '", - "replace text[107:110] --> decoded_text[145:152] 'the' --> ' the '", - "replace text[118:124] --> decoded_text[160:172] 'of the' --> ' of the '", - "insert text[133:133] --> decoded_text[181:183] '' --> ' '", - "insert text[142:142] --> decoded_text[192:194] '' --> ' '", - "insert text[150:150] --> decoded_text[202:204] '' --> ' '", - "insert text[156:156] --> decoded_text[210:212] '' --> ' '", - "insert text[164:164] --> decoded_text[220:222] '' --> ' '", - "replace text[171:173] --> decoded_text[229:235] 'of' --> ' of '", - "replace text[184:189] --> decoded_text[246:255] 'tells' --> ' tells '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "diff": [ - "insert text[4:4] --> decoded_text[4:6] '' --> ' '", - "replace text[17:25] --> decoded_text[19:33] 'home has' --> ' home has '", - "insert text[31:31] --> decoded_text[39:41] '' --> ' '", - "insert text[41:41] --> decoded_text[51:53] '' --> ' '", - "insert text[48:48] --> decoded_text[60:62] '' --> ' '", - "replace text[58:64] --> decoded_text[72:84] 'and an' --> ' and an '", - "replace text[74:85] --> decoded_text[94:113] 'in the west' --> ' in the west '", - "insert text[92:92] --> decoded_text[120:122] '' --> ' '", - "replace text[98:100] --> decoded_text[128:134] 'to' --> ' to '", - "replace text[112:120] --> decoded_text[146:160] 'two main' --> ' two main '", - "replace text[129:143] --> decoded_text[169:191] 'halls can seat' --> ' halls can seat '", - "replace text[147:149] --> decoded_text[195:201] 'to' --> ' to '", - "insert text[154:154] --> decoded_text[206:208] '' --> ' '", - "insert text[162:162] --> decoded_text[216:218] '' --> ' '", - "insert text[166:166] --> decoded_text[222:224] '' --> ' '", - "insert text[183:183] --> decoded_text[241:243] '' --> ' '", - "replace text[191:201] --> decoded_text[251:267] 'includes a' --> ' includes a '", - "replace text[212:254] --> decoded_text[278:336] 'and walls and ceilings throughout the home' --> ' and walls and ceilings throughout the home '", - "replace text[263:273] --> decoded_text[345:361] 'murals and' --> ' murals and '", - "insert text[283:283] --> decoded_text[371:373] '' --> ' '", - "replace text[290:317] --> decoded_text[380:417] 'amenities include an indoor' --> ' amenities include an indoor '", - "replace text[323:326] --> decoded_text[423:430] 'and' --> ' and '", - "replace text[334:335] --> decoded_text[438:443] 'a' --> ' a '", - "replace text[344:356] --> decoded_text[452:472] 'garage and a' --> ' garage and a '", - "replace text[365:373] --> decoded_text[481:493] 'entrance' --> ' entrance '", - "insert text[383:383] --> decoded_text[503:505] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "diff": [ - "replace text[12:15] --> decoded_text[12:19] 'the' --> ' the '", - "replace text[25:29] --> decoded_text[29:39] 'is a' --> ' is a '", - "replace text[50:56] --> decoded_text[60:70] 'garden' --> ' garden '", - "replace text[62:63] --> decoded_text[76:81] 'a' --> ' a '", - "insert text[72:72] --> decoded_text[90:92] '' --> ' '", - "replace text[75:95] --> decoded_text[95:125] 'trees, plants and an' --> ' trees, plants and an '", - "insert text[105:105] --> decoded_text[135:137] '' --> ' '", - "replace text[108:119] --> decoded_text[140:157] 'the spring,' --> ' the spring, '", - "insert text[124:124] --> decoded_text[162:164] '' --> ' '", - "insert text[132:132] --> decoded_text[172:174] '' --> ' '", - "insert text[140:140] --> decoded_text[182:184] '' --> ' '", - "replace text[146:160] --> decoded_text[190:212] 'in the tiered,' --> ' in the tiered, '", - "insert text[173:173] --> decoded_text[225:227] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "decoded_text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", - "diff": [ - "insert text[10:10] --> decoded_text[10:12] '' --> ' '", - "insert text[12:12] --> decoded_text[14:16] '' --> ' '", - "insert text[21:21] --> decoded_text[25:27] '' --> ' '", - "insert text[24:24] --> decoded_text[30:32] '' --> ' '", - "insert text[33:33] --> decoded_text[41:43] '' --> ' '", - "insert text[36:36] --> decoded_text[46:48] '' --> ' '", - "insert text[46:46] --> decoded_text[58:60] '' --> ' '", - "insert text[52:52] --> decoded_text[66:68] '' --> ' '", - "insert text[63:63] --> decoded_text[79:81] '' --> ' '", - "insert text[67:67] --> decoded_text[85:87] '' --> ' '", - "insert text[76:76] --> decoded_text[96:98] '' --> ' '", - "insert text[82:82] --> decoded_text[104:106] '' --> ' '", - "insert text[84:84] --> decoded_text[108:110] '' --> ' '", - "insert text[88:88] --> decoded_text[114:116] '' --> ' '", - "insert text[96:96] --> decoded_text[124:126] '' --> ' '", - "insert text[99:99] --> decoded_text[129:131] '' --> ' '", - "insert text[105:105] --> decoded_text[137:139] '' --> ' '", - "insert text[107:107] --> decoded_text[141:143] '' --> ' '", - "insert text[115:115] --> decoded_text[151:153] '' --> ' '", - "insert text[122:122] --> decoded_text[160:162] '' --> ' '", - "insert text[125:125] --> decoded_text[165:167] '' --> ' '", - "insert text[134:134] --> decoded_text[176:178] '' --> ' '", - "insert text[141:141] --> decoded_text[185:187] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "diff": [ - "insert text[3:3] --> decoded_text[3:5] '' --> ' '", - "insert text[9:9] --> decoded_text[11:13] '' --> ' '", - "insert text[14:14] --> decoded_text[18:20] '' --> ' '", - "insert text[16:16] --> decoded_text[22:24] '' --> ' '", - "insert text[20:20] --> decoded_text[28:30] '' --> ' '", - "insert text[27:27] --> decoded_text[37:39] '' --> ' '", - "insert text[39:39] --> decoded_text[51:53] '' --> ' '", - "insert text[43:43] --> decoded_text[57:59] '' --> ' '", - "insert text[52:52] --> decoded_text[68:70] '' --> ' '", - "insert text[59:59] --> decoded_text[77:79] '' --> ' '", - "insert text[70:70] --> decoded_text[90:92] '' --> ' '", - "insert text[73:73] --> decoded_text[95:97] '' --> ' '", - "insert text[79:79] --> decoded_text[103:105] '' --> ' '", - "insert text[88:88] --> decoded_text[114:116] '' --> ' '", - "insert text[96:96] --> decoded_text[124:126] '' --> ' '", - "insert text[98:98] --> decoded_text[128:130] '' --> ' '", - "insert text[102:102] --> decoded_text[134:136] '' --> ' '", - "insert text[111:111] --> decoded_text[145:147] '' --> ' '", - "insert text[115:115] --> decoded_text[151:153] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "insert text[5:5] --> decoded_text[5:7] '' --> ' '", - "insert text[10:10] --> decoded_text[12:14] '' --> ' '", - "insert text[24:24] --> decoded_text[28:30] '' --> ' '", - "replace text[30:48] --> decoded_text[36:62] 'you should include' --> ' you should include '", - "insert text[54:54] --> decoded_text[68:70] '' --> ' '", - "insert text[59:59] --> decoded_text[75:77] '' --> ' '", - "replace text[62:68] --> decoded_text[80:90] 'ounces' --> ' ounces '", - "insert text[72:72] --> decoded_text[94:96] '' --> ' '", - "insert text[79:79] --> decoded_text[103:105] '' --> ' '", - "replace text[93:97] --> decoded_text[119:127] 'each' --> ' each '", - "insert text[103:103] --> decoded_text[133:135] '' --> ' '", - "insert text[107:107] --> decoded_text[139:141] '' --> ' '", - "insert text[112:112] --> decoded_text[146:148] '' --> ' '", - "insert text[115:115] --> decoded_text[151:153] '' --> ' '", - "insert text[124:124] --> decoded_text[162:164] '' --> ' '", - "insert text[130:130] --> decoded_text[170:172] '' --> ' '", - "insert text[137:137] --> decoded_text[179:181] '' --> ' '", - "insert text[147:147] --> decoded_text[191:193] '' --> ' '", - "replace text[153:157] --> decoded_text[199:207] 'hour' --> ' hour '", - "replace text[166:183] --> decoded_text[216:243] 'the day since you' --> ' the day since you '", - "replace text[189:192] --> decoded_text[249:256] 'not' --> ' not '", - "insert text[196:196] --> decoded_text[260:262] '' --> ' '", - "replace text[201:203] --> decoded_text[267:273] 'to' --> ' to '", - "replace text[210:211] --> decoded_text[280:285] 'a' --> ' a '", - "insert text[218:218] --> decoded_text[292:294] '' --> ' '", - "replace text[225:231] --> decoded_text[301:313] 'all at' --> ' all at '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "diff": [ - "insert text[3:3] --> decoded_text[3:5] '' --> ' '", - "insert text[7:7] --> decoded_text[9:11] '' --> ' '", - "insert text[12:12] --> decoded_text[16:18] '' --> ' '", - "replace text[18:22] --> decoded_text[24:32] 'your' --> ' your '", - "insert text[32:32] --> decoded_text[42:44] '' --> ' '", - "replace text[38:44] --> decoded_text[50:60] 'adding' --> ' adding '", - "replace text[52:71] --> decoded_text[68:95] 'protein during this' --> ' protein during this '", - "insert text[77:77] --> decoded_text[101:103] '' --> ' '", - "replace text[82:84] --> decoded_text[108:114] 'to' --> ' to '", - "replace text[88:97] --> decoded_text[118:133] 'grams per' --> ' grams per '", - "insert text[104:104] --> decoded_text[140:142] '' --> ' '", - "replace text[109:118] --> decoded_text[147:162] 'means you' --> ' means you '", - "insert text[126:126] --> decoded_text[170:172] '' --> ' '", - "replace text[130:139] --> decoded_text[176:191] 'a protein' --> ' a protein '", - "replace text[147:156] --> decoded_text[199:212] 'suggested' --> ' suggested '", - "replace text[160:164] --> decoded_text[216:224] 'your' --> ' your '", - "insert text[176:176] --> decoded_text[236:238] '' --> ' '", - "replace text[183:185] --> decoded_text[245:251] 'or' --> ' or '", - "insert text[193:193] --> decoded_text[259:261] '' --> ' '", - "insert text[196:196] --> decoded_text[264:266] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "diff": [ - "insert text[6:6] --> decoded_text[6:8] '' --> ' '", - "insert text[16:16] --> decoded_text[18:20] '' --> ' '", - "insert text[18:18] --> decoded_text[22:24] '' --> ' '", - "insert text[23:23] --> decoded_text[29:31] '' --> ' '", - "insert text[32:32] --> decoded_text[40:42] '' --> ' '", - "insert text[40:40] --> decoded_text[50:52] '' --> ' '", - "insert text[43:43] --> decoded_text[55:57] '' --> ' '", - "insert text[52:52] --> decoded_text[66:68] '' --> ' '", - "insert text[57:57] --> decoded_text[73:75] '' --> ' '", - "insert text[58:58] --> decoded_text[76:78] '' --> ' '", - "insert text[62:62] --> decoded_text[82:84] '' --> ' '", - "insert text[74:74] --> decoded_text[96:98] '' --> ' '", - "insert text[76:76] --> decoded_text[100:102] '' --> ' '", - "insert text[80:80] --> decoded_text[106:108] '' --> ' '", - "insert text[88:88] --> decoded_text[116:118] '' --> ' '", - "insert text[90:90] --> decoded_text[120:122] '' --> ' '", - "insert text[106:106] --> decoded_text[138:140] '' --> ' '", - "insert text[108:108] --> decoded_text[142:144] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Watch for signs of dehydration!", - "decoded_text": "Watch for signs of dehydration!", - "diff": [ - "insert text[6:6] --> decoded_text[6:8] '' --> ' '", - "insert text[9:9] --> decoded_text[11:13] '' --> ' '", - "insert text[16:16] --> decoded_text[20:22] '' --> ' '", - "insert text[18:18] --> decoded_text[24:26] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "diff": [ + "insert text[8:8] --> decoded_text[8:10] '' --> ' '", + "replace text[15:24] --> decoded_text[17:34] 'is on the' --> ' is on the '", + "replace text[32:35] --> decoded_text[42:49] 'for' --> ' for '", + "replace text[40:58] --> decoded_text[54:80] 'million and boasts' --> ' million and boasts '", + "insert text[66:66] --> decoded_text[88:90] '' --> ' '", + "insert text[74:74] --> decoded_text[98:100] '' --> ' '", + "replace text[81:88] --> decoded_text[107:120] 'feet of' --> ' feet of '", + "replace text[99:121] --> decoded_text[131:161] 'finishes and elaborate' --> ' finishes and elaborate '", + "replace text[135:137] --> decoded_text[175:181] 'on' --> ' on '", + "insert text[143:143] --> decoded_text[187:189] '' --> ' '", + "insert text[150:150] --> decoded_text[196:198] '' --> ' '", + "replace text[157:159] --> decoded_text[205:211] 'on' --> ' on '", + "replace text[170:181] --> decoded_text[222:241] 'the home is' --> ' the home is '", + "replace text[188:195] --> decoded_text[248:261] 'sold by' --> ' sold by '", + "replace text[205:221] --> decoded_text[271:295] 'real estate firm' --> ' real estate firm '", + "insert text[232:232] --> decoded_text[306:308] '' --> ' '", + "insert text[246:246] --> decoded_text[322:324] '' --> ' '", + "insert text[253:253] --> decoded_text[331:333] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "diff": [ + "replace text[8:11] --> decoded_text[8:15] 'the' --> ' the '", + "insert text[16:16] --> decoded_text[20:22] '' --> ' '", + "insert text[23:23] --> decoded_text[29:31] '' --> ' '", + "replace text[27:37] --> decoded_text[35:51] 'homes that' --> ' homes that '", + "insert text[43:43] --> decoded_text[57:59] '' --> ' '", + "replace text[48:51] --> decoded_text[64:71] 'for' --> ' for '", + "insert text[56:56] --> decoded_text[76:78] '' --> ' '", + "insert text[64:64] --> decoded_text[86:88] '' --> ' '", + "insert text[69:69] --> decoded_text[93:95] '' --> ' '", + "insert text[77:77] --> decoded_text[103:105] '' --> ' '", + "replace text[82:89] --> decoded_text[110:121] 'million' --> ' million '", + "replace text[94:98] --> decoded_text[126:134] 'this' --> ' this '", + "insert text[104:104] --> decoded_text[140:142] '' --> ' '", + "replace text[107:110] --> decoded_text[145:152] 'the' --> ' the '", + "replace text[118:124] --> decoded_text[160:172] 'of the' --> ' of the '", + "insert text[133:133] --> decoded_text[181:183] '' --> ' '", + "insert text[142:142] --> decoded_text[192:194] '' --> ' '", + "insert text[150:150] --> decoded_text[202:204] '' --> ' '", + "insert text[156:156] --> decoded_text[210:212] '' --> ' '", + "insert text[164:164] --> decoded_text[220:222] '' --> ' '", + "replace text[171:173] --> decoded_text[229:235] 'of' --> ' of '", + "replace text[184:189] --> decoded_text[246:255] 'tells' --> ' tells '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "replace text[17:25] --> decoded_text[19:33] 'home has' --> ' home has '", + "insert text[31:31] --> decoded_text[39:41] '' --> ' '", + "insert text[41:41] --> decoded_text[51:53] '' --> ' '", + "insert text[48:48] --> decoded_text[60:62] '' --> ' '", + "replace text[58:64] --> decoded_text[72:84] 'and an' --> ' and an '", + "replace text[74:85] --> decoded_text[94:113] 'in the west' --> ' in the west '", + "insert text[92:92] --> decoded_text[120:122] '' --> ' '", + "replace text[98:100] --> decoded_text[128:134] 'to' --> ' to '", + "replace text[112:120] --> decoded_text[146:160] 'two main' --> ' two main '", + "replace text[129:143] --> decoded_text[169:191] 'halls can seat' --> ' halls can seat '", + "replace text[147:149] --> decoded_text[195:201] 'to' --> ' to '", + "insert text[154:154] --> decoded_text[206:208] '' --> ' '", + "insert text[162:162] --> decoded_text[216:218] '' --> ' '", + "insert text[166:166] --> decoded_text[222:224] '' --> ' '", + "insert text[183:183] --> decoded_text[241:243] '' --> ' '", + "replace text[191:201] --> decoded_text[251:267] 'includes a' --> ' includes a '", + "replace text[212:254] --> decoded_text[278:336] 'and walls and ceilings throughout the home' --> ' and walls and ceilings throughout the home '", + "replace text[263:273] --> decoded_text[345:361] 'murals and' --> ' murals and '", + "insert text[283:283] --> decoded_text[371:373] '' --> ' '", + "replace text[290:317] --> decoded_text[380:417] 'amenities include an indoor' --> ' amenities include an indoor '", + "replace text[323:326] --> decoded_text[423:430] 'and' --> ' and '", + "replace text[334:335] --> decoded_text[438:443] 'a' --> ' a '", + "replace text[344:356] --> decoded_text[452:472] 'garage and a' --> ' garage and a '", + "replace text[365:373] --> decoded_text[481:493] 'entrance' --> ' entrance '", + "insert text[383:383] --> decoded_text[503:505] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "diff": [ + "replace text[12:15] --> decoded_text[12:19] 'the' --> ' the '", + "replace text[25:29] --> decoded_text[29:39] 'is a' --> ' is a '", + "replace text[50:56] --> decoded_text[60:70] 'garden' --> ' garden '", + "replace text[62:63] --> decoded_text[76:81] 'a' --> ' a '", + "insert text[72:72] --> decoded_text[90:92] '' --> ' '", + "replace text[75:95] --> decoded_text[95:125] 'trees, plants and an' --> ' trees, plants and an '", + "insert text[105:105] --> decoded_text[135:137] '' --> ' '", + "replace text[108:119] --> decoded_text[140:157] 'the spring,' --> ' the spring, '", + "insert text[124:124] --> decoded_text[162:164] '' --> ' '", + "insert text[132:132] --> decoded_text[172:174] '' --> ' '", + "insert text[140:140] --> decoded_text[182:184] '' --> ' '", + "replace text[146:160] --> decoded_text[190:212] 'in the tiered,' --> ' in the tiered, '", + "insert text[173:173] --> decoded_text[225:227] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "insert text[10:10] --> decoded_text[10:12] '' --> ' '", + "insert text[12:12] --> decoded_text[14:16] '' --> ' '", + "insert text[21:21] --> decoded_text[25:27] '' --> ' '", + "insert text[24:24] --> decoded_text[30:32] '' --> ' '", + "insert text[33:33] --> decoded_text[41:43] '' --> ' '", + "insert text[36:36] --> decoded_text[46:48] '' --> ' '", + "insert text[46:46] --> decoded_text[58:60] '' --> ' '", + "insert text[52:52] --> decoded_text[66:68] '' --> ' '", + "insert text[63:63] --> decoded_text[79:81] '' --> ' '", + "insert text[67:67] --> decoded_text[85:87] '' --> ' '", + "insert text[76:76] --> decoded_text[96:98] '' --> ' '", + "insert text[82:82] --> decoded_text[104:106] '' --> ' '", + "insert text[84:84] --> decoded_text[108:110] '' --> ' '", + "insert text[88:88] --> decoded_text[114:116] '' --> ' '", + "insert text[96:96] --> decoded_text[124:126] '' --> ' '", + "insert text[99:99] --> decoded_text[129:131] '' --> ' '", + "insert text[105:105] --> decoded_text[137:139] '' --> ' '", + "insert text[107:107] --> decoded_text[141:143] '' --> ' '", + "insert text[115:115] --> decoded_text[151:153] '' --> ' '", + "insert text[122:122] --> decoded_text[160:162] '' --> ' '", + "insert text[125:125] --> decoded_text[165:167] '' --> ' '", + "insert text[134:134] --> decoded_text[176:178] '' --> ' '", + "insert text[141:141] --> decoded_text[185:187] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "diff": [ + "insert text[3:3] --> decoded_text[3:5] '' --> ' '", + "insert text[9:9] --> decoded_text[11:13] '' --> ' '", + "insert text[14:14] --> decoded_text[18:20] '' --> ' '", + "insert text[16:16] --> decoded_text[22:24] '' --> ' '", + "insert text[20:20] --> decoded_text[28:30] '' --> ' '", + "insert text[27:27] --> decoded_text[37:39] '' --> ' '", + "insert text[39:39] --> decoded_text[51:53] '' --> ' '", + "insert text[43:43] --> decoded_text[57:59] '' --> ' '", + "insert text[52:52] --> decoded_text[68:70] '' --> ' '", + "insert text[59:59] --> decoded_text[77:79] '' --> ' '", + "insert text[70:70] --> decoded_text[90:92] '' --> ' '", + "insert text[73:73] --> decoded_text[95:97] '' --> ' '", + "insert text[79:79] --> decoded_text[103:105] '' --> ' '", + "insert text[88:88] --> decoded_text[114:116] '' --> ' '", + "insert text[96:96] --> decoded_text[124:126] '' --> ' '", + "insert text[98:98] --> decoded_text[128:130] '' --> ' '", + "insert text[102:102] --> decoded_text[134:136] '' --> ' '", + "insert text[111:111] --> decoded_text[145:147] '' --> ' '", + "insert text[115:115] --> decoded_text[151:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "insert text[5:5] --> decoded_text[5:7] '' --> ' '", + "insert text[10:10] --> decoded_text[12:14] '' --> ' '", + "insert text[24:24] --> decoded_text[28:30] '' --> ' '", + "replace text[30:48] --> decoded_text[36:62] 'you should include' --> ' you should include '", + "insert text[54:54] --> decoded_text[68:70] '' --> ' '", + "insert text[59:59] --> decoded_text[75:77] '' --> ' '", + "replace text[62:68] --> decoded_text[80:90] 'ounces' --> ' ounces '", + "insert text[72:72] --> decoded_text[94:96] '' --> ' '", + "insert text[79:79] --> decoded_text[103:105] '' --> ' '", + "replace text[93:97] --> decoded_text[119:127] 'each' --> ' each '", + "insert text[103:103] --> decoded_text[133:135] '' --> ' '", + "insert text[107:107] --> decoded_text[139:141] '' --> ' '", + "insert text[112:112] --> decoded_text[146:148] '' --> ' '", + "insert text[115:115] --> decoded_text[151:153] '' --> ' '", + "insert text[124:124] --> decoded_text[162:164] '' --> ' '", + "insert text[130:130] --> decoded_text[170:172] '' --> ' '", + "insert text[137:137] --> decoded_text[179:181] '' --> ' '", + "insert text[147:147] --> decoded_text[191:193] '' --> ' '", + "replace text[153:157] --> decoded_text[199:207] 'hour' --> ' hour '", + "replace text[166:183] --> decoded_text[216:243] 'the day since you' --> ' the day since you '", + "replace text[189:192] --> decoded_text[249:256] 'not' --> ' not '", + "insert text[196:196] --> decoded_text[260:262] '' --> ' '", + "replace text[201:203] --> decoded_text[267:273] 'to' --> ' to '", + "replace text[210:211] --> decoded_text[280:285] 'a' --> ' a '", + "insert text[218:218] --> decoded_text[292:294] '' --> ' '", + "replace text[225:231] --> decoded_text[301:313] 'all at' --> ' all at '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "diff": [ + "insert text[3:3] --> decoded_text[3:5] '' --> ' '", + "insert text[7:7] --> decoded_text[9:11] '' --> ' '", + "insert text[12:12] --> decoded_text[16:18] '' --> ' '", + "replace text[18:22] --> decoded_text[24:32] 'your' --> ' your '", + "insert text[32:32] --> decoded_text[42:44] '' --> ' '", + "replace text[38:44] --> decoded_text[50:60] 'adding' --> ' adding '", + "replace text[52:71] --> decoded_text[68:95] 'protein during this' --> ' protein during this '", + "insert text[77:77] --> decoded_text[101:103] '' --> ' '", + "replace text[82:84] --> decoded_text[108:114] 'to' --> ' to '", + "replace text[88:97] --> decoded_text[118:133] 'grams per' --> ' grams per '", + "insert text[104:104] --> decoded_text[140:142] '' --> ' '", + "replace text[109:118] --> decoded_text[147:162] 'means you' --> ' means you '", + "insert text[126:126] --> decoded_text[170:172] '' --> ' '", + "replace text[130:139] --> decoded_text[176:191] 'a protein' --> ' a protein '", + "replace text[147:156] --> decoded_text[199:212] 'suggested' --> ' suggested '", + "replace text[160:164] --> decoded_text[216:224] 'your' --> ' your '", + "insert text[176:176] --> decoded_text[236:238] '' --> ' '", + "replace text[183:185] --> decoded_text[245:251] 'or' --> ' or '", + "insert text[193:193] --> decoded_text[259:261] '' --> ' '", + "insert text[196:196] --> decoded_text[264:266] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "diff": [ + "insert text[6:6] --> decoded_text[6:8] '' --> ' '", + "insert text[16:16] --> decoded_text[18:20] '' --> ' '", + "insert text[18:18] --> decoded_text[22:24] '' --> ' '", + "insert text[23:23] --> decoded_text[29:31] '' --> ' '", + "insert text[32:32] --> decoded_text[40:42] '' --> ' '", + "insert text[40:40] --> decoded_text[50:52] '' --> ' '", + "insert text[43:43] --> decoded_text[55:57] '' --> ' '", + "insert text[52:52] --> decoded_text[66:68] '' --> ' '", + "insert text[57:57] --> decoded_text[73:75] '' --> ' '", + "insert text[58:58] --> decoded_text[76:78] '' --> ' '", + "insert text[62:62] --> decoded_text[82:84] '' --> ' '", + "insert text[74:74] --> decoded_text[96:98] '' --> ' '", + "insert text[76:76] --> decoded_text[100:102] '' --> ' '", + "insert text[80:80] --> decoded_text[106:108] '' --> ' '", + "insert text[88:88] --> decoded_text[116:118] '' --> ' '", + "insert text[90:90] --> decoded_text[120:122] '' --> ' '", + "insert text[106:106] --> decoded_text[138:140] '' --> ' '", + "insert text[108:108] --> decoded_text[142:144] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "Watch for signs of dehydration!", + "diff": [ + "insert text[6:6] --> decoded_text[6:8] '' --> ' '", + "insert text[9:9] --> decoded_text[11:13] '' --> ' '", + "insert text[16:16] --> decoded_text[20:22] '' --> ' '", + "insert text[18:18] --> decoded_text[24:26] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json index c0cd62949aa7c5cc8f3e3cdd4d25a45faf056d6d..f7ea70ffd48b823638d82c8388dac24183dd4a5c 100644 --- a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json @@ -1,216 +1,216 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", - "diff": [ - "replace text[4:15] --> decoded_text[4:23] 'trata de un' --> ' trata de un '", - "replace text[24:40] --> decoded_text[32:58] 'de cerca de seis' --> ' de cerca de seis '", - "insert text[48:48] --> decoded_text[66:68] '' --> ' '", - "replace text[58:79] --> decoded_text[78:107] 'articulado, contra la' --> ' articulado, contra la '", - "insert text[93:93] --> decoded_text[121:123] '' --> ' '", - "insert text[102:102] --> decoded_text[132:134] '' --> ' '", - "insert text[107:107] --> decoded_text[139:141] '' --> ' '", - "replace text[120:123] --> decoded_text[154:161] 'del' --> ' del '", - "insert text[129:129] --> decoded_text[167:169] '' --> ' '", - "replace text[137:151] --> decoded_text[177:199] 'dedicados a la' --> ' dedicados a la '", - "insert text[163:163] --> decoded_text[211:213] '' --> ' '", - "replace text[169:179] --> decoded_text[219:233] 'sicariato,' --> ' sicariato, '", - "replace text[188:198] --> decoded_text[242:262] 'ilícito de' --> ' ilcito de '", - "insert text[208:208] --> decoded_text[272:274] '' --> ' '", - "insert text[217:217] --> decoded_text[283:285] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004464285714285714, - "oov_charset": "[\"í\"]" - }, - { - "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", - "diff": [ - "insert text[6:6] --> decoded_text[6:8] '' --> ' '", - "insert text[8:8] --> decoded_text[10:12] '' --> ' '", - "insert text[17:17] --> decoded_text[21:23] '' --> ' '", - "insert text[19:19] --> decoded_text[25:27] '' --> ' '", - "insert text[23:23] --> decoded_text[31:33] '' --> ' '", - "insert text[33:33] --> decoded_text[43:45] '' --> ' '", - "insert text[34:34] --> decoded_text[46:48] '' --> ' '", - "insert text[37:37] --> decoded_text[51:53] '' --> ' '", - "insert text[50:50] --> decoded_text[66:68] '' --> ' '", - "insert text[53:53] --> decoded_text[71:73] '' --> ' '", - "insert text[55:55] --> decoded_text[75:77] '' --> ' '", - "insert text[69:69] --> decoded_text[91:93] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "insert text[1:1] --> decoded_text[1:3] '' --> ' '", - "insert text[7:7] --> decoded_text[9:11] '' --> ' '", - "replace text[20:23] --> decoded_text[24:31] 'del' --> ' del '", - "insert text[29:29] --> decoded_text[37:39] '' --> ' '", - "replace text[37:43] --> decoded_text[47:59] 'se les' --> ' se les '", - "replace text[47:59] --> decoded_text[63:81] 'atribuido al' --> ' atribuido al '", - "insert text[65:65] --> decoded_text[87:89] '' --> ' '", - "insert text[69:69] --> decoded_text[93:95] '' --> ' '", - "insert text[80:80] --> decoded_text[106:108] '' --> ' '", - "insert text[90:90] --> decoded_text[118:120] '' --> ' '", - "replace text[94:111] --> decoded_text[124:149] 'sicarios debido a' --> ' sicarios debido a '", - "replace text[120:130] --> decoded_text[158:174] 'de cuentas' --> ' de cuentas '", - "replace text[136:159] --> decoded_text[180:215] 'el control del cobro de' --> ' el control del cobro de '", - "replace text[166:174] --> decoded_text[222:236] 'o contra' --> ' o contra '", - "insert text[185:185] --> decoded_text[247:249] '' --> ' '", - "replace text[189:191] --> decoded_text[253:259] 'se' --> ' se '", - "replace text[200:212] --> decoded_text[268:288] 'a acatar sus' --> ' a acatar sus '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", - "diff": [ - "replace text[3:7] --> decoded_text[3:11] 'este' --> ' este '", - "insert text[22:22] --> decoded_text[26:28] '' --> ' '", - "replace text[26:37] --> decoded_text[32:47] 'participado' --> ' participado '", - "insert text[42:42] --> decoded_text[52:54] '' --> ' '", - "replace text[50:55] --> decoded_text[62:73] 'de la' --> ' de la '", - "insert text[64:64] --> decoded_text[82:84] '' --> ' '", - "replace text[73:76] --> decoded_text[93:100] 'del' --> ' del '", - "insert text[82:82] --> decoded_text[106:108] '' --> ' '", - "insert text[83:83] --> decoded_text[109:111] '' --> ' '", - "insert text[87:87] --> decoded_text[115:117] '' --> ' '", - "insert text[97:97] --> decoded_text[127:129] '' --> ' '", - "replace text[105:107] --> decoded_text[137:143] 'se' --> ' se '", - "insert text[112:112] --> decoded_text[148:150] '' --> ' '", - "replace text[123:125] --> decoded_text[161:167] 'en' --> ' en '", - "insert text[130:130] --> decoded_text[172:174] '' --> ' '", - "replace text[133:134] --> decoded_text[177:182] 'í' --> ''", - "insert text[141:141] --> decoded_text[189:191] '' --> ' '", - "replace text[151:156] --> decoded_text[201:212] 'e los' --> ' e los '", - "insert text[160:160] --> decoded_text[216:218] '' --> ' '", - "insert text[171:171] --> decoded_text[229:231] '' --> ' '", - "replace text[174:177] --> decoded_text[234:241] 'son' --> ' son '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005376344086021506, - "oov_charset": "[\"í\"]" - }, - { - "text": "1. El período de vacaciones anuales retribuidas, no sustituible", - "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", - "diff": [ - "insert text[2:2] --> decoded_text[2:4] '' --> ' '", - "insert text[6:6] --> decoded_text[8:10] '' --> ' '", - "replace text[9:10] --> decoded_text[13:18] 'í' --> ''", - "insert text[14:14] --> decoded_text[22:24] '' --> ' '", - "insert text[16:16] --> decoded_text[26:28] '' --> ' '", - "insert text[28:28] --> decoded_text[40:42] '' --> ' '", - "insert text[35:35] --> decoded_text[49:51] '' --> ' '", - "insert text[49:49] --> decoded_text[65:67] '' --> ' '", - "insert text[51:51] --> decoded_text[69:71] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"í\"]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "diff": [ - "insert text[1:1] --> decoded_text[1:3] '' --> ' '", - "insert text[7:7] --> decoded_text[9:11] '' --> ' '", - "insert text[9:9] --> decoded_text[13:15] '' --> ' '", - "insert text[13:13] --> decoded_text[19:21] '' --> ' '", - "insert text[22:22] --> decoded_text[30:32] '' --> ' '", - "insert text[24:24] --> decoded_text[34:36] '' --> ' '", - "insert text[28:28] --> decoded_text[40:42] '' --> ' '", - "insert text[30:30] --> decoded_text[44:46] '' --> ' '", - "insert text[38:38] --> decoded_text[54:56] '' --> ' '", - "insert text[40:40] --> decoded_text[58:60] '' --> ' '", - "insert text[50:50] --> decoded_text[70:72] '' --> ' '", - "insert text[53:53] --> decoded_text[75:77] '' --> ' '", - "insert text[55:55] --> decoded_text[79:81] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "2. El período o períodos de su disfrute se fijará de común", - "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", - "diff": [ - "insert text[2:2] --> decoded_text[2:4] '' --> ' '", - "insert text[6:6] --> decoded_text[8:10] '' --> ' '", - "replace text[9:10] --> decoded_text[13:18] 'í' --> ''", - "insert text[14:14] --> decoded_text[22:24] '' --> ' '", - "insert text[15:15] --> decoded_text[25:27] '' --> ' '", - "replace text[19:20] --> decoded_text[31:36] 'í' --> ''", - "insert text[25:25] --> decoded_text[41:43] '' --> ' '", - "insert text[28:28] --> decoded_text[46:48] '' --> ' '", - "insert text[30:30] --> decoded_text[50:52] '' --> ' '", - "insert text[40:40] --> decoded_text[62:64] '' --> ' '", - "insert text[42:42] --> decoded_text[66:68] '' --> ' '", - "insert text[50:50] --> decoded_text[76:78] '' --> ' '", - "insert text[52:52] --> decoded_text[80:82] '' --> ' '", - "replace text[56:57] --> decoded_text[86:88] 'ú' --> ' decoded_text[89:92] '' --> 'k>n'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.05172413793103448, - "oov_charset": "[\"í\", \"ú\"]" - }, - { - "text": "acuerdo entre el empresario y el trabajador, de conformidad", - "decoded_text": "acuerdo entre el empresario y el trabajador, de conformidad", - "diff": [ - "insert text[8:8] --> decoded_text[8:10] '' --> ' '", - "insert text[14:14] --> decoded_text[16:18] '' --> ' '", - "insert text[16:16] --> decoded_text[20:22] '' --> ' '", - "insert text[28:28] --> decoded_text[34:36] '' --> ' '", - "insert text[29:29] --> decoded_text[37:39] '' --> ' '", - "insert text[32:32] --> decoded_text[42:44] '' --> ' '", - "insert text[45:45] --> decoded_text[57:59] '' --> ' '", - "insert text[47:47] --> decoded_text[61:63] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "con lo establecido en su caso en los Convenios Colectivos", - "decoded_text": "con lo establecido en su caso en los Convenios Colectivos", - "diff": [ - "insert text[4:4] --> decoded_text[4:6] '' --> ' '", - "insert text[6:6] --> decoded_text[8:10] '' --> ' '", - "insert text[19:19] --> decoded_text[23:25] '' --> ' '", - "insert text[22:22] --> decoded_text[28:30] '' --> ' '", - "insert text[24:24] --> decoded_text[32:34] '' --> ' '", - "insert text[30:30] --> decoded_text[40:42] '' --> ' '", - "insert text[32:32] --> decoded_text[44:46] '' --> ' '", - "insert text[36:36] --> decoded_text[50:52] '' --> ' '", - "insert text[47:47] --> decoded_text[63:65] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "sobre planificación anual de las vacaciones.", - "decoded_text": "sobre planificación anual de las vacaciones.", - "diff": [ - "insert text[5:5] --> decoded_text[5:7] '' --> ' '", - "insert text[20:20] --> decoded_text[22:24] '' --> ' '", - "insert text[26:26] --> decoded_text[30:32] '' --> ' '", - "insert text[28:28] --> decoded_text[34:36] '' --> ' '", - "insert text[32:32] --> decoded_text[40:42] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", + "diff": [ + "replace text[4:15] --> decoded_text[4:23] 'trata de un' --> ' trata de un '", + "replace text[24:40] --> decoded_text[32:58] 'de cerca de seis' --> ' de cerca de seis '", + "insert text[48:48] --> decoded_text[66:68] '' --> ' '", + "replace text[58:79] --> decoded_text[78:107] 'articulado, contra la' --> ' articulado, contra la '", + "insert text[93:93] --> decoded_text[121:123] '' --> ' '", + "insert text[102:102] --> decoded_text[132:134] '' --> ' '", + "insert text[107:107] --> decoded_text[139:141] '' --> ' '", + "replace text[120:123] --> decoded_text[154:161] 'del' --> ' del '", + "insert text[129:129] --> decoded_text[167:169] '' --> ' '", + "replace text[137:151] --> decoded_text[177:199] 'dedicados a la' --> ' dedicados a la '", + "insert text[163:163] --> decoded_text[211:213] '' --> ' '", + "replace text[169:179] --> decoded_text[219:233] 'sicariato,' --> ' sicariato, '", + "replace text[188:198] --> decoded_text[242:262] 'ilícito de' --> ' ilcito de '", + "insert text[208:208] --> decoded_text[272:274] '' --> ' '", + "insert text[217:217] --> decoded_text[283:285] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004464285714285714, + "oov_charset": "[\"í\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "diff": [ + "insert text[6:6] --> decoded_text[6:8] '' --> ' '", + "insert text[8:8] --> decoded_text[10:12] '' --> ' '", + "insert text[17:17] --> decoded_text[21:23] '' --> ' '", + "insert text[19:19] --> decoded_text[25:27] '' --> ' '", + "insert text[23:23] --> decoded_text[31:33] '' --> ' '", + "insert text[33:33] --> decoded_text[43:45] '' --> ' '", + "insert text[34:34] --> decoded_text[46:48] '' --> ' '", + "insert text[37:37] --> decoded_text[51:53] '' --> ' '", + "insert text[50:50] --> decoded_text[66:68] '' --> ' '", + "insert text[53:53] --> decoded_text[71:73] '' --> ' '", + "insert text[55:55] --> decoded_text[75:77] '' --> ' '", + "insert text[69:69] --> decoded_text[91:93] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[7:7] --> decoded_text[9:11] '' --> ' '", + "replace text[20:23] --> decoded_text[24:31] 'del' --> ' del '", + "insert text[29:29] --> decoded_text[37:39] '' --> ' '", + "replace text[37:43] --> decoded_text[47:59] 'se les' --> ' se les '", + "replace text[47:59] --> decoded_text[63:81] 'atribuido al' --> ' atribuido al '", + "insert text[65:65] --> decoded_text[87:89] '' --> ' '", + "insert text[69:69] --> decoded_text[93:95] '' --> ' '", + "insert text[80:80] --> decoded_text[106:108] '' --> ' '", + "insert text[90:90] --> decoded_text[118:120] '' --> ' '", + "replace text[94:111] --> decoded_text[124:149] 'sicarios debido a' --> ' sicarios debido a '", + "replace text[120:130] --> decoded_text[158:174] 'de cuentas' --> ' de cuentas '", + "replace text[136:159] --> decoded_text[180:215] 'el control del cobro de' --> ' el control del cobro de '", + "replace text[166:174] --> decoded_text[222:236] 'o contra' --> ' o contra '", + "insert text[185:185] --> decoded_text[247:249] '' --> ' '", + "replace text[189:191] --> decoded_text[253:259] 'se' --> ' se '", + "replace text[200:212] --> decoded_text[268:288] 'a acatar sus' --> ' a acatar sus '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[3:7] --> decoded_text[3:11] 'este' --> ' este '", + "insert text[22:22] --> decoded_text[26:28] '' --> ' '", + "replace text[26:37] --> decoded_text[32:47] 'participado' --> ' participado '", + "insert text[42:42] --> decoded_text[52:54] '' --> ' '", + "replace text[50:55] --> decoded_text[62:73] 'de la' --> ' de la '", + "insert text[64:64] --> decoded_text[82:84] '' --> ' '", + "replace text[73:76] --> decoded_text[93:100] 'del' --> ' del '", + "insert text[82:82] --> decoded_text[106:108] '' --> ' '", + "insert text[83:83] --> decoded_text[109:111] '' --> ' '", + "insert text[87:87] --> decoded_text[115:117] '' --> ' '", + "insert text[97:97] --> decoded_text[127:129] '' --> ' '", + "replace text[105:107] --> decoded_text[137:143] 'se' --> ' se '", + "insert text[112:112] --> decoded_text[148:150] '' --> ' '", + "replace text[123:125] --> decoded_text[161:167] 'en' --> ' en '", + "insert text[130:130] --> decoded_text[172:174] '' --> ' '", + "replace text[133:134] --> decoded_text[177:182] 'í' --> ''", + "insert text[141:141] --> decoded_text[189:191] '' --> ' '", + "replace text[151:156] --> decoded_text[201:212] 'e los' --> ' e los '", + "insert text[160:160] --> decoded_text[216:218] '' --> ' '", + "insert text[171:171] --> decoded_text[229:231] '' --> ' '", + "replace text[174:177] --> decoded_text[234:241] 'son' --> ' son '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[6:6] --> decoded_text[8:10] '' --> ' '", + "replace text[9:10] --> decoded_text[13:18] 'í' --> ''", + "insert text[14:14] --> decoded_text[22:24] '' --> ' '", + "insert text[16:16] --> decoded_text[26:28] '' --> ' '", + "insert text[28:28] --> decoded_text[40:42] '' --> ' '", + "insert text[35:35] --> decoded_text[49:51] '' --> ' '", + "insert text[49:49] --> decoded_text[65:67] '' --> ' '", + "insert text[51:51] --> decoded_text[69:71] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[7:7] --> decoded_text[9:11] '' --> ' '", + "insert text[9:9] --> decoded_text[13:15] '' --> ' '", + "insert text[13:13] --> decoded_text[19:21] '' --> ' '", + "insert text[22:22] --> decoded_text[30:32] '' --> ' '", + "insert text[24:24] --> decoded_text[34:36] '' --> ' '", + "insert text[28:28] --> decoded_text[40:42] '' --> ' '", + "insert text[30:30] --> decoded_text[44:46] '' --> ' '", + "insert text[38:38] --> decoded_text[54:56] '' --> ' '", + "insert text[40:40] --> decoded_text[58:60] '' --> ' '", + "insert text[50:50] --> decoded_text[70:72] '' --> ' '", + "insert text[53:53] --> decoded_text[75:77] '' --> ' '", + "insert text[55:55] --> decoded_text[79:81] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[6:6] --> decoded_text[8:10] '' --> ' '", + "replace text[9:10] --> decoded_text[13:18] 'í' --> ''", + "insert text[14:14] --> decoded_text[22:24] '' --> ' '", + "insert text[15:15] --> decoded_text[25:27] '' --> ' '", + "replace text[19:20] --> decoded_text[31:36] 'í' --> ''", + "insert text[25:25] --> decoded_text[41:43] '' --> ' '", + "insert text[28:28] --> decoded_text[46:48] '' --> ' '", + "insert text[30:30] --> decoded_text[50:52] '' --> ' '", + "insert text[40:40] --> decoded_text[62:64] '' --> ' '", + "insert text[42:42] --> decoded_text[66:68] '' --> ' '", + "insert text[50:50] --> decoded_text[76:78] '' --> ' '", + "insert text[52:52] --> decoded_text[80:82] '' --> ' '", + "replace text[56:57] --> decoded_text[86:88] 'ú' --> ' decoded_text[89:92] '' --> 'k>n'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05172413793103448, + "oov_charset": "[\"í\", \"ú\"]" + }, + { + "text": "acuerdo entre el empresario y el trabajador, de conformidad", + "decoded_text": "acuerdo entre el empresario y el trabajador, de conformidad", + "diff": [ + "insert text[8:8] --> decoded_text[8:10] '' --> ' '", + "insert text[14:14] --> decoded_text[16:18] '' --> ' '", + "insert text[16:16] --> decoded_text[20:22] '' --> ' '", + "insert text[28:28] --> decoded_text[34:36] '' --> ' '", + "insert text[29:29] --> decoded_text[37:39] '' --> ' '", + "insert text[32:32] --> decoded_text[42:44] '' --> ' '", + "insert text[45:45] --> decoded_text[57:59] '' --> ' '", + "insert text[47:47] --> decoded_text[61:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los Convenios Colectivos", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "insert text[6:6] --> decoded_text[8:10] '' --> ' '", + "insert text[19:19] --> decoded_text[23:25] '' --> ' '", + "insert text[22:22] --> decoded_text[28:30] '' --> ' '", + "insert text[24:24] --> decoded_text[32:34] '' --> ' '", + "insert text[30:30] --> decoded_text[40:42] '' --> ' '", + "insert text[32:32] --> decoded_text[44:46] '' --> ' '", + "insert text[36:36] --> decoded_text[50:52] '' --> ' '", + "insert text[47:47] --> decoded_text[63:65] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificación anual de las vacaciones.", + "diff": [ + "insert text[5:5] --> decoded_text[5:7] '' --> ' '", + "insert text[20:20] --> decoded_text[22:24] '' --> ' '", + "insert text[26:26] --> decoded_text[30:32] '' --> ' '", + "insert text[28:28] --> decoded_text[34:36] '' --> ' '", + "insert text[32:32] --> decoded_text[40:42] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json index eb6d266b658ef9dd95fbeb18592f80be1b014f39..f8d6f13e86405fad42bd8dd731a7484b000fcf88 100644 --- a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json @@ -1,261 +1,261 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "diff": [ - "insert text[4:4] --> decoded_text[4:6] '' --> ' '", - "insert text[11:11] --> decoded_text[13:15] '' --> ' '", - "insert text[14:14] --> decoded_text[18:20] '' --> ' '", - "insert text[16:16] --> decoded_text[22:24] '' --> ' '", - "insert text[22:22] --> decoded_text[30:32] '' --> ' '", - "insert text[26:26] --> decoded_text[36:38] '' --> ' '", - "insert text[28:28] --> decoded_text[40:42] '' --> ' '", - "insert text[34:34] --> decoded_text[48:50] '' --> ' '", - "insert text[35:35] --> decoded_text[51:53] '' --> ' '", - "insert text[41:41] --> decoded_text[59:61] '' --> ' '", - "insert text[51:51] --> decoded_text[71:73] '' --> ' '", - "insert text[53:53] --> decoded_text[75:77] '' --> ' '", - "insert text[60:60] --> decoded_text[84:86] '' --> ' '", - "insert text[62:62] --> decoded_text[88:90] '' --> ' '", - "insert text[70:70] --> decoded_text[98:100] '' --> ' '", - "insert text[73:73] --> decoded_text[103:105] '' --> ' '", - "insert text[75:75] --> decoded_text[107:109] '' --> ' '", - "insert text[81:81] --> decoded_text[115:117] '' --> ' '", - "insert text[84:84] --> decoded_text[120:122] '' --> ' '", - "insert text[91:91] --> decoded_text[129:131] '' --> ' '", - "insert text[97:97] --> decoded_text[137:139] '' --> ' '", - "insert text[102:102] --> decoded_text[144:146] '' --> ' '", - "insert text[106:106] --> decoded_text[150:152] '' --> ' '", - "insert text[113:113] --> decoded_text[159:161] '' --> ' '", - "insert text[116:116] --> decoded_text[164:166] '' --> ' '", - "insert text[118:118] --> decoded_text[168:170] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", - "diff": [ - "insert text[4:4] --> decoded_text[4:6] '' --> ' '", - "insert text[11:11] --> decoded_text[13:15] '' --> ' '", - "insert text[13:13] --> decoded_text[17:19] '' --> ' '", - "insert text[18:18] --> decoded_text[24:26] '' --> ' '", - "insert text[22:22] --> decoded_text[30:32] '' --> ' '", - "insert text[31:31] --> decoded_text[41:43] '' --> ' '", - "insert text[35:35] --> decoded_text[47:49] '' --> ' '", - "insert text[43:43] --> decoded_text[57:59] '' --> ' '", - "insert text[46:46] --> decoded_text[62:64] '' --> ' '", - "insert text[53:53] --> decoded_text[71:73] '' --> ' '", - "insert text[59:59] --> decoded_text[79:81] '' --> ' '", - "insert text[71:71] --> decoded_text[93:95] '' --> ' '", - "insert text[73:73] --> decoded_text[97:99] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "decoded_text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", - "diff": [ - "insert text[7:7] --> decoded_text[7:9] '' --> ' '", - "insert text[10:10] --> decoded_text[12:14] '' --> ' '", - "insert text[17:17] --> decoded_text[21:23] '' --> ' '", - "insert text[21:21] --> decoded_text[27:29] '' --> ' '", - "insert text[29:29] --> decoded_text[37:39] '' --> ' '", - "insert text[32:32] --> decoded_text[42:44] '' --> ' '", - "insert text[40:40] --> decoded_text[52:54] '' --> ' '", - "insert text[42:42] --> decoded_text[56:58] '' --> ' '", - "insert text[47:47] --> decoded_text[63:65] '' --> ' '", - "insert text[56:56] --> decoded_text[74:76] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "insert text[2:2] --> decoded_text[2:4] '' --> ' '", - "insert text[5:5] --> decoded_text[7:9] '' --> ' '", - "replace text[10:17] --> decoded_text[14:25] 'retenir' --> ' retenir '", - "insert text[24:24] --> decoded_text[32:34] '' --> ' '", - "replace text[35:38] --> decoded_text[45:52] 'des' --> ' des '", - "replace text[45:64] --> decoded_text[59:88] 'inutiles ou sur des' --> ' inutiles ou sur des '", - "insert text[72:72] --> decoded_text[96:98] '' --> ' '", - "insert text[76:76] --> decoded_text[102:104] '' --> ' '", - "replace text[91:101] --> decoded_text[119:135] 'mais sinon' --> ' mais sinon '", - "insert text[105:105] --> decoded_text[139:141] '' --> ' '", - "replace text[110:116] --> decoded_text[146:158] 'pas de' --> ' pas de '", - "replace text[126:129] --> decoded_text[168:175] 'par' --> ' par '", - "replace text[138:140] --> decoded_text[184:190] 'si' --> ' si '", - "replace text[151:157] --> decoded_text[201:213] 'me dit' --> ' me dit '", - "replace text[162:169] --> decoded_text[218:229] 'pourras' --> ' pourras '", - "insert text[176:176] --> decoded_text[236:238] '' --> ' '", - "replace text[179:186] --> decoded_text[241:254] 'dans la' --> ' dans la '", - "insert text[193:193] --> decoded_text[261:262] '' --> ' '", - "replace text[197:199] --> decoded_text[266:272] 'le' --> ' le '", - "replace text[207:209] --> decoded_text[280:286] 'il' --> ' il '", - "replace text[212:216] --> decoded_text[289:299] 'a de' --> ' a de '", - "insert text[223:223] --> decoded_text[306:308] '' --> ' '", - "insert text[232:232] --> decoded_text[317:319] '' --> ' '", - "insert text[235:235] --> decoded_text[322:324] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "diff": [ - "insert text[2:2] --> decoded_text[2:4] '' --> ' '", - "insert text[5:5] --> decoded_text[7:9] '' --> ' '", - "replace text[10:20] --> decoded_text[14:30] 'penser une' --> ' penser une '", - "replace text[27:33] --> decoded_text[37:49] 'et son' --> ' et son '", - "insert text[45:45] --> decoded_text[61:63] '' --> ' '", - "insert text[49:49] --> decoded_text[67:69] '' --> ' '", - "insert text[58:58] --> decoded_text[78:80] '' --> ' '", - "replace text[64:66] --> decoded_text[86:92] 'ma' --> ' ma '", - "insert text[72:72] --> decoded_text[98:100] '' --> ' '", - "insert text[76:76] --> decoded_text[104:106] '' --> ' '", - "replace text[80:83] --> decoded_text[110:117] 'les' --> ' les '", - "replace text[96:98] --> decoded_text[130:136] 'ne' --> ' ne '", - "replace text[107:120] --> decoded_text[145:166] 'rien pour les' --> ' rien pour les '", - "insert text[132:132] --> decoded_text[178:180] '' --> ' '", - "replace text[135:137] --> decoded_text[183:189] 'me' --> ' me '", - "insert text[142:142] --> decoded_text[194:196] '' --> ' '", - "insert text[146:146] --> decoded_text[200:202] '' --> ' '", - "replace text[150:162] --> decoded_text[206:224] 'ils essaient' --> ' ils essaient '", - "insert text[167:167] --> decoded_text[229:231] '' --> ' '", - "replace text[174:187] --> decoded_text[238:257] 'mais pourtant' --> ' mais pourtant '", - "replace text[191:202] --> decoded_text[261:278] 'pense aussi' --> ' pense aussi '", - "insert text[210:210] --> decoded_text[286:288] '' --> ' '", - "replace text[215:223] --> decoded_text[293:307] 'ont rien' --> ' ont rien '", - "insert text[226:226] --> decoded_text[310:312] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "diff": [ - "insert text[2:2] --> decoded_text[2:4] '' --> ' '", - "insert text[5:5] --> decoded_text[7:9] '' --> ' '", - "replace text[12:14] --> decoded_text[16:22] 'et' --> ' et '", - "replace text[25:42] --> decoded_text[33:60] 'tout seul sur des' --> ' tout seul sur des '", - "insert text[50:50] --> decoded_text[68:70] '' --> ' '", - "replace text[58:62] --> decoded_text[78:86] 'rien' --> ' rien '", - "insert text[65:65] --> decoded_text[89:91] '' --> ' '", - "insert text[70:70] --> decoded_text[96:98] '' --> ' '", - "replace text[75:78] --> decoded_text[103:110] 'une' --> ' une '", - "insert text[89:89] --> decoded_text[121:123] '' --> ' '", - "insert text[99:99] --> decoded_text[133:135] '' --> ' '", - "insert text[104:104] --> decoded_text[140:142] '' --> ' '", - "replace text[115:131] --> decoded_text[153:179] 'mes soeurs et ma' --> ' mes soeurs et ma '", - "insert text[137:137] --> decoded_text[185:187] '' --> ' '", - "replace text[144:146] --> decoded_text[194:200] 'un' --> ' un '", - "insert text[156:156] --> decoded_text[210:212] '' --> ' '", - "insert text[159:159] --> decoded_text[215:217] '' --> ' '", - "insert text[169:169] --> decoded_text[227:229] '' --> ' '", - "replace text[171:185] --> decoded_text[231:253] 'la création du' --> ' la création du '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "diff": [ - "insert text[2:2] --> decoded_text[2:4] '' --> ' '", - "replace text[5:9] --> decoded_text[7:15] 'suis' --> ' suis '", - "insert text[19:19] --> decoded_text[25:27] '' --> ' '", - "replace text[24:26] --> decoded_text[32:38] 'ma' --> ' ma '", - "replace text[36:40] --> decoded_text[48:56] 'mais' --> ' mais '", - "insert text[48:48] --> decoded_text[64:66] '' --> ' '", - "replace text[53:56] --> decoded_text[71:78] 'mes' --> ' mes '", - "insert text[64:64] --> decoded_text[86:88] '' --> ' '", - "insert text[67:67] --> decoded_text[91:93] '' --> ' '", - "replace text[74:80] --> decoded_text[100:112] 'et ait' --> ' et ait '", - "insert text[90:90] --> decoded_text[122:124] '' --> ' '", - "insert text[91:91] --> decoded_text[125:127] '' --> ' '", - "insert text[101:101] --> decoded_text[137:139] '' --> ' '", - "insert text[106:106] --> decoded_text[144:146] '' --> ' '", - "insert text[110:110] --> decoded_text[150:152] '' --> ' '", - "insert text[113:113] --> decoded_text[155:157] '' --> ' '", - "insert text[121:121] --> decoded_text[165:167] '' --> ' '", - "insert text[125:125] --> decoded_text[171:173] '' --> ' '", - "insert text[134:134] --> decoded_text[182:184] '' --> ' '", - "replace text[137:145] --> decoded_text[187:199] 'ailleurs' --> ' ailleurs '", - "insert text[152:152] --> decoded_text[206:208] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- Je dois être mentalement instable, par moments", - "diff": [ - "insert text[1:1] --> decoded_text[1:3] '' --> ' '", - "insert text[4:4] --> decoded_text[6:8] '' --> ' '", - "insert text[10:10] --> decoded_text[14:16] '' --> ' '", - "insert text[14:14] --> decoded_text[20:22] '' --> ' '", - "insert text[27:27] --> decoded_text[35:37] '' --> ' '", - "insert text[37:37] --> decoded_text[47:49] '' --> ' '", - "insert text[40:40] --> decoded_text[52:54] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Je n'envoie que très peu de sms et n'appelle personne", - "decoded_text": "- Je n'envoie que très peu de sms et n'appelle personne", - "diff": [ - "insert text[1:1] --> decoded_text[1:3] '' --> ' '", - "insert text[4:4] --> decoded_text[6:8] '' --> ' '", - "insert text[14:14] --> decoded_text[18:20] '' --> ' '", - "insert text[17:17] --> decoded_text[23:25] '' --> ' '", - "insert text[23:23] --> decoded_text[31:33] '' --> ' '", - "insert text[27:27] --> decoded_text[37:39] '' --> ' '", - "insert text[29:29] --> decoded_text[41:43] '' --> ' '", - "insert text[34:34] --> decoded_text[48:50] '' --> ' '", - "insert text[36:36] --> decoded_text[52:54] '' --> ' '", - "insert text[47:47] --> decoded_text[65:67] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "diff": [ - "insert text[1:1] --> decoded_text[1:3] '' --> ' '", - "replace text[7:15] --> decoded_text[9:21] 'tendance' --> ' tendance '", - "insert text[18:18] --> decoded_text[24:26] '' --> ' '", - "insert text[23:23] --> decoded_text[31:33] '' --> ' '", - "replace text[27:33] --> decoded_text[37:47] 'autres' --> ' autres '", - "insert text[41:41] --> decoded_text[55:57] '' --> ' '", - "replace text[52:61] --> decoded_text[68:83] 'comme des' --> ' comme des '", - "insert text[70:70] --> decoded_text[92:94] '' --> ' '", - "replace text[78:87] --> decoded_text[102:117] 'aucune ou' --> ' aucune ou '", - "replace text[92:94] --> decoded_text[122:128] 'de' --> ' de '", - "replace text[105:107] --> decoded_text[139:145] 'de' --> ' de '", - "replace text[120:122] --> decoded_text[158:164] 'et' --> ' et '", - "replace text[126:130] --> decoded_text[168:176] 'sais' --> ' sais '", - "insert text[135:135] --> decoded_text[181:183] '' --> ' '", - "replace text[138:145] --> decoded_text[186:199] 'ne dois' --> ' ne dois '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "insert text[11:11] --> decoded_text[13:15] '' --> ' '", + "insert text[14:14] --> decoded_text[18:20] '' --> ' '", + "insert text[16:16] --> decoded_text[22:24] '' --> ' '", + "insert text[22:22] --> decoded_text[30:32] '' --> ' '", + "insert text[26:26] --> decoded_text[36:38] '' --> ' '", + "insert text[28:28] --> decoded_text[40:42] '' --> ' '", + "insert text[34:34] --> decoded_text[48:50] '' --> ' '", + "insert text[35:35] --> decoded_text[51:53] '' --> ' '", + "insert text[41:41] --> decoded_text[59:61] '' --> ' '", + "insert text[51:51] --> decoded_text[71:73] '' --> ' '", + "insert text[53:53] --> decoded_text[75:77] '' --> ' '", + "insert text[60:60] --> decoded_text[84:86] '' --> ' '", + "insert text[62:62] --> decoded_text[88:90] '' --> ' '", + "insert text[70:70] --> decoded_text[98:100] '' --> ' '", + "insert text[73:73] --> decoded_text[103:105] '' --> ' '", + "insert text[75:75] --> decoded_text[107:109] '' --> ' '", + "insert text[81:81] --> decoded_text[115:117] '' --> ' '", + "insert text[84:84] --> decoded_text[120:122] '' --> ' '", + "insert text[91:91] --> decoded_text[129:131] '' --> ' '", + "insert text[97:97] --> decoded_text[137:139] '' --> ' '", + "insert text[102:102] --> decoded_text[144:146] '' --> ' '", + "insert text[106:106] --> decoded_text[150:152] '' --> ' '", + "insert text[113:113] --> decoded_text[159:161] '' --> ' '", + "insert text[116:116] --> decoded_text[164:166] '' --> ' '", + "insert text[118:118] --> decoded_text[168:170] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "insert text[11:11] --> decoded_text[13:15] '' --> ' '", + "insert text[13:13] --> decoded_text[17:19] '' --> ' '", + "insert text[18:18] --> decoded_text[24:26] '' --> ' '", + "insert text[22:22] --> decoded_text[30:32] '' --> ' '", + "insert text[31:31] --> decoded_text[41:43] '' --> ' '", + "insert text[35:35] --> decoded_text[47:49] '' --> ' '", + "insert text[43:43] --> decoded_text[57:59] '' --> ' '", + "insert text[46:46] --> decoded_text[62:64] '' --> ' '", + "insert text[53:53] --> decoded_text[71:73] '' --> ' '", + "insert text[59:59] --> decoded_text[79:81] '' --> ' '", + "insert text[71:71] --> decoded_text[93:95] '' --> ' '", + "insert text[73:73] --> decoded_text[97:99] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "diff": [ + "insert text[7:7] --> decoded_text[7:9] '' --> ' '", + "insert text[10:10] --> decoded_text[12:14] '' --> ' '", + "insert text[17:17] --> decoded_text[21:23] '' --> ' '", + "insert text[21:21] --> decoded_text[27:29] '' --> ' '", + "insert text[29:29] --> decoded_text[37:39] '' --> ' '", + "insert text[32:32] --> decoded_text[42:44] '' --> ' '", + "insert text[40:40] --> decoded_text[52:54] '' --> ' '", + "insert text[42:42] --> decoded_text[56:58] '' --> ' '", + "insert text[47:47] --> decoded_text[63:65] '' --> ' '", + "insert text[56:56] --> decoded_text[74:76] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[5:5] --> decoded_text[7:9] '' --> ' '", + "replace text[10:17] --> decoded_text[14:25] 'retenir' --> ' retenir '", + "insert text[24:24] --> decoded_text[32:34] '' --> ' '", + "replace text[35:38] --> decoded_text[45:52] 'des' --> ' des '", + "replace text[45:64] --> decoded_text[59:88] 'inutiles ou sur des' --> ' inutiles ou sur des '", + "insert text[72:72] --> decoded_text[96:98] '' --> ' '", + "insert text[76:76] --> decoded_text[102:104] '' --> ' '", + "replace text[91:101] --> decoded_text[119:135] 'mais sinon' --> ' mais sinon '", + "insert text[105:105] --> decoded_text[139:141] '' --> ' '", + "replace text[110:116] --> decoded_text[146:158] 'pas de' --> ' pas de '", + "replace text[126:129] --> decoded_text[168:175] 'par' --> ' par '", + "replace text[138:140] --> decoded_text[184:190] 'si' --> ' si '", + "replace text[151:157] --> decoded_text[201:213] 'me dit' --> ' me dit '", + "replace text[162:169] --> decoded_text[218:229] 'pourras' --> ' pourras '", + "insert text[176:176] --> decoded_text[236:238] '' --> ' '", + "replace text[179:186] --> decoded_text[241:254] 'dans la' --> ' dans la '", + "insert text[193:193] --> decoded_text[261:262] '' --> ' '", + "replace text[197:199] --> decoded_text[266:272] 'le' --> ' le '", + "replace text[207:209] --> decoded_text[280:286] 'il' --> ' il '", + "replace text[212:216] --> decoded_text[289:299] 'a de' --> ' a de '", + "insert text[223:223] --> decoded_text[306:308] '' --> ' '", + "insert text[232:232] --> decoded_text[317:319] '' --> ' '", + "insert text[235:235] --> decoded_text[322:324] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[5:5] --> decoded_text[7:9] '' --> ' '", + "replace text[10:20] --> decoded_text[14:30] 'penser une' --> ' penser une '", + "replace text[27:33] --> decoded_text[37:49] 'et son' --> ' et son '", + "insert text[45:45] --> decoded_text[61:63] '' --> ' '", + "insert text[49:49] --> decoded_text[67:69] '' --> ' '", + "insert text[58:58] --> decoded_text[78:80] '' --> ' '", + "replace text[64:66] --> decoded_text[86:92] 'ma' --> ' ma '", + "insert text[72:72] --> decoded_text[98:100] '' --> ' '", + "insert text[76:76] --> decoded_text[104:106] '' --> ' '", + "replace text[80:83] --> decoded_text[110:117] 'les' --> ' les '", + "replace text[96:98] --> decoded_text[130:136] 'ne' --> ' ne '", + "replace text[107:120] --> decoded_text[145:166] 'rien pour les' --> ' rien pour les '", + "insert text[132:132] --> decoded_text[178:180] '' --> ' '", + "replace text[135:137] --> decoded_text[183:189] 'me' --> ' me '", + "insert text[142:142] --> decoded_text[194:196] '' --> ' '", + "insert text[146:146] --> decoded_text[200:202] '' --> ' '", + "replace text[150:162] --> decoded_text[206:224] 'ils essaient' --> ' ils essaient '", + "insert text[167:167] --> decoded_text[229:231] '' --> ' '", + "replace text[174:187] --> decoded_text[238:257] 'mais pourtant' --> ' mais pourtant '", + "replace text[191:202] --> decoded_text[261:278] 'pense aussi' --> ' pense aussi '", + "insert text[210:210] --> decoded_text[286:288] '' --> ' '", + "replace text[215:223] --> decoded_text[293:307] 'ont rien' --> ' ont rien '", + "insert text[226:226] --> decoded_text[310:312] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[5:5] --> decoded_text[7:9] '' --> ' '", + "replace text[12:14] --> decoded_text[16:22] 'et' --> ' et '", + "replace text[25:42] --> decoded_text[33:60] 'tout seul sur des' --> ' tout seul sur des '", + "insert text[50:50] --> decoded_text[68:70] '' --> ' '", + "replace text[58:62] --> decoded_text[78:86] 'rien' --> ' rien '", + "insert text[65:65] --> decoded_text[89:91] '' --> ' '", + "insert text[70:70] --> decoded_text[96:98] '' --> ' '", + "replace text[75:78] --> decoded_text[103:110] 'une' --> ' une '", + "insert text[89:89] --> decoded_text[121:123] '' --> ' '", + "insert text[99:99] --> decoded_text[133:135] '' --> ' '", + "insert text[104:104] --> decoded_text[140:142] '' --> ' '", + "replace text[115:131] --> decoded_text[153:179] 'mes soeurs et ma' --> ' mes soeurs et ma '", + "insert text[137:137] --> decoded_text[185:187] '' --> ' '", + "replace text[144:146] --> decoded_text[194:200] 'un' --> ' un '", + "insert text[156:156] --> decoded_text[210:212] '' --> ' '", + "insert text[159:159] --> decoded_text[215:217] '' --> ' '", + "insert text[169:169] --> decoded_text[227:229] '' --> ' '", + "replace text[171:185] --> decoded_text[231:253] 'la création du' --> ' la création du '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "replace text[5:9] --> decoded_text[7:15] 'suis' --> ' suis '", + "insert text[19:19] --> decoded_text[25:27] '' --> ' '", + "replace text[24:26] --> decoded_text[32:38] 'ma' --> ' ma '", + "replace text[36:40] --> decoded_text[48:56] 'mais' --> ' mais '", + "insert text[48:48] --> decoded_text[64:66] '' --> ' '", + "replace text[53:56] --> decoded_text[71:78] 'mes' --> ' mes '", + "insert text[64:64] --> decoded_text[86:88] '' --> ' '", + "insert text[67:67] --> decoded_text[91:93] '' --> ' '", + "replace text[74:80] --> decoded_text[100:112] 'et ait' --> ' et ait '", + "insert text[90:90] --> decoded_text[122:124] '' --> ' '", + "insert text[91:91] --> decoded_text[125:127] '' --> ' '", + "insert text[101:101] --> decoded_text[137:139] '' --> ' '", + "insert text[106:106] --> decoded_text[144:146] '' --> ' '", + "insert text[110:110] --> decoded_text[150:152] '' --> ' '", + "insert text[113:113] --> decoded_text[155:157] '' --> ' '", + "insert text[121:121] --> decoded_text[165:167] '' --> ' '", + "insert text[125:125] --> decoded_text[171:173] '' --> ' '", + "insert text[134:134] --> decoded_text[182:184] '' --> ' '", + "replace text[137:145] --> decoded_text[187:199] 'ailleurs' --> ' ailleurs '", + "insert text[152:152] --> decoded_text[206:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois être mentalement instable, par moments", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[4:4] --> decoded_text[6:8] '' --> ' '", + "insert text[10:10] --> decoded_text[14:16] '' --> ' '", + "insert text[14:14] --> decoded_text[20:22] '' --> ' '", + "insert text[27:27] --> decoded_text[35:37] '' --> ' '", + "insert text[37:37] --> decoded_text[47:49] '' --> ' '", + "insert text[40:40] --> decoded_text[52:54] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- Je n'envoie que très peu de sms et n'appelle personne", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[4:4] --> decoded_text[6:8] '' --> ' '", + "insert text[14:14] --> decoded_text[18:20] '' --> ' '", + "insert text[17:17] --> decoded_text[23:25] '' --> ' '", + "insert text[23:23] --> decoded_text[31:33] '' --> ' '", + "insert text[27:27] --> decoded_text[37:39] '' --> ' '", + "insert text[29:29] --> decoded_text[41:43] '' --> ' '", + "insert text[34:34] --> decoded_text[48:50] '' --> ' '", + "insert text[36:36] --> decoded_text[52:54] '' --> ' '", + "insert text[47:47] --> decoded_text[65:67] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "replace text[7:15] --> decoded_text[9:21] 'tendance' --> ' tendance '", + "insert text[18:18] --> decoded_text[24:26] '' --> ' '", + "insert text[23:23] --> decoded_text[31:33] '' --> ' '", + "replace text[27:33] --> decoded_text[37:47] 'autres' --> ' autres '", + "insert text[41:41] --> decoded_text[55:57] '' --> ' '", + "replace text[52:61] --> decoded_text[68:83] 'comme des' --> ' comme des '", + "insert text[70:70] --> decoded_text[92:94] '' --> ' '", + "replace text[78:87] --> decoded_text[102:117] 'aucune ou' --> ' aucune ou '", + "replace text[92:94] --> decoded_text[122:128] 'de' --> ' de '", + "replace text[105:107] --> decoded_text[139:145] 'de' --> ' de '", + "replace text[120:122] --> decoded_text[158:164] 'et' --> ' et '", + "replace text[126:130] --> decoded_text[168:176] 'sais' --> ' sais '", + "insert text[135:135] --> decoded_text[181:183] '' --> ' '", + "replace text[138:145] --> decoded_text[186:199] 'ne dois' --> ' ne dois '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json index 6ab0989b5c6cee40aba47da9a8be2d3d5b9957fa..b32179d28a83007c60f9f6d95aba908278dab3d4 100644 --- a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json @@ -1,138 +1,138 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": " (www.suzastampin.com) 2012,,, 4S,, 6000,, 4008112233 3456:", - "diff": [ - "replace text[0:9] --> decoded_text[0:6] '卍招财带什么佛牌卍' --> ' '", - "replace text[30:37] --> decoded_text[27:33] '卡尔・斯利姆于' --> ' '", - "replace text[41:131] --> decoded_text[37:61] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,, '", - "replace text[133:159] --> decoded_text[63:81] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',, '", - "replace text[163:196] --> decoded_text[85:103] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',, '", - "replace text[206:207] --> decoded_text[113:119] '转' --> ' '", - "replace text[211:214] --> decoded_text[123:129] '详询:' --> ':'" - ], - "n_oov_chars": 169, - "oov_ratio": 0.7897196261682243, - "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": ",, 3, 5,", - "diff": [ - "replace text[0:124] --> decoded_text[0:43] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',, 3, 5,'" - ], - "n_oov_chars": 124, - "oov_ratio": 1.0, - "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": ",,,", - "diff": [ - "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" - ], - "n_oov_chars": 80, - "oov_ratio": 1.0, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": ", 1999,,", - "diff": [ - "replace text[0:43] --> decoded_text[0:12] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ', '", - "replace text[47:78] --> decoded_text[16:33] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" - ], - "n_oov_chars": 74, - "oov_ratio": 0.9487179487179487, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 28, 50, : (RingoStarr),, •• (JuliaRoberts),, QueenieEye, Photograph,", - "diff": [ - "replace text[1:2] --> decoded_text[1:7] '月' --> ' '", - "replace text[4:30] --> decoded_text[9:21] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ', '", - "replace text[32:61] --> decoded_text[23:42] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ', : '", - "replace text[73:106] --> decoded_text[54:72] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',, '", - "replace text[108:111] --> decoded_text[74:80] '罗伯茨' --> ' '", - "replace text[125:152] --> decoded_text[94:112] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',, '", - "replace text[162:175] --> decoded_text[122:134] '》,然后轮到后者演绎旧作《' --> ', '", - "replace text[185:201] --> decoded_text[144:155] '》,带领歌迷重温昔日的美好情怀。' --> ','" - ], - "n_oov_chars": 148, - "oov_ratio": 0.736318407960199, - "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": ", 14, 21,, 7, 1, 6, 14", - "diff": [ - "replace text[0:23] --> decoded_text[0:12] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ', '", - "replace text[25:32] --> decoded_text[14:26] '元,但司机到账' --> ', '", - "replace text[34:44] --> decoded_text[28:46] '元,因此,司机给记者' --> ',, '", - "replace text[45:54] --> decoded_text[47:59] '元,除去之前支付的' --> ', '", - "replace text[55:61] --> decoded_text[60:72] '元,记者净赚' --> ', '", - "replace text[62:73] --> decoded_text[73:85] '元,还免费乘了本应支付' --> ', '", - "replace text[75:79] --> decoded_text[87:92] '元的车。' --> ''" - ], - "n_oov_chars": 70, - "oov_ratio": 0.8860759493670886, - "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": " 2012,,, ()", - "diff": [ - "replace text[0:7] --> decoded_text[0:6] '卡尔・斯利姆于' --> ' '", - "replace text[11:110] --> decoded_text[10:34] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,, '", - "replace text[111:114] --> decoded_text[35:40] '方赵春' --> ''" - ], - "n_oov_chars": 109, - "oov_ratio": 0.9478260869565217, - "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": ",,,,, :“,, 2, 1,?”,", - "diff": [ - "replace text[0:70] --> decoded_text[0:37] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,, :'", - "replace text[71:88] --> decoded_text[38:56] '老毕,我跟你说了这么长时间,让你走' --> ',, '", - "replace text[89:96] --> decoded_text[57:69] '号位,你非要走' --> ', '", - "replace text[97:111] --> decoded_text[70:82] '号位,你想跟我较死劲是不是?' --> ',?'", - "replace text[112:137] --> decoded_text[83:94] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" - ], - "n_oov_chars": 133, - "oov_ratio": 0.9708029197080292, - "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": ",, 360, 600,, 2", - "diff": [ - "replace text[0:36] --> decoded_text[0:18] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',, '", - "replace text[39:53] --> decoded_text[21:33] '万元人民币,李娜每年的花费是' --> ', '", - "replace text[56:79] --> decoded_text[36:54] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',, '", - "replace text[80:87] --> decoded_text[55:60] '万元就出去了。' --> ''" - ], - "n_oov_chars": 80, - "oov_ratio": 0.9195402298850575, - "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ ’,,,,,, ”,", - "diff": [ - "replace text[1:19] --> decoded_text[1:7] '金庸的小说《连城诀》里有一个反派人物' --> ' '", - "replace text[20:24] --> decoded_text[8:14] '血刀老祖' --> ' '", - "replace text[25:72] --> decoded_text[15:40] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,, '", - "replace text[73:115] --> decoded_text[41:59] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',, '", - "replace text[116:120] --> decoded_text[60:66] '拾金而昧' --> ' '", - "replace text[121:123] --> decoded_text[67:74] ',还' --> ', '", - "replace text[124:125] --> decoded_text[75:81] '昧' --> ' '", - "replace text[126:132] --> decoded_text[82:87] '得理直气壮。' --> ''" - ], - "n_oov_chars": 124, - "oov_ratio": 0.9393939393939394, - "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": " (www.suzastampin.com) 2012,,, 4S,, 6000,, 4008112233 3456:", + "diff": [ + "replace text[0:9] --> decoded_text[0:6] '卍招财带什么佛牌卍' --> ' '", + "replace text[30:37] --> decoded_text[27:33] '卡尔・斯利姆于' --> ' '", + "replace text[41:131] --> decoded_text[37:61] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,, '", + "replace text[133:159] --> decoded_text[63:81] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',, '", + "replace text[163:196] --> decoded_text[85:103] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',, '", + "replace text[206:207] --> decoded_text[113:119] '转' --> ' '", + "replace text[211:214] --> decoded_text[123:129] '详询:' --> ':'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": ",, 3, 5,", + "diff": [ + "replace text[0:124] --> decoded_text[0:43] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',, 3, 5,'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": ",,,", + "diff": [ + "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": ", 1999,,", + "diff": [ + "replace text[0:43] --> decoded_text[0:12] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ', '", + "replace text[47:78] --> decoded_text[16:33] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 28, 50, : (RingoStarr),, •• (JuliaRoberts),, QueenieEye, Photograph,", + "diff": [ + "replace text[1:2] --> decoded_text[1:7] '月' --> ' '", + "replace text[4:30] --> decoded_text[9:21] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ', '", + "replace text[32:61] --> decoded_text[23:42] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ', : '", + "replace text[73:106] --> decoded_text[54:72] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',, '", + "replace text[108:111] --> decoded_text[74:80] '罗伯茨' --> ' '", + "replace text[125:152] --> decoded_text[94:112] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',, '", + "replace text[162:175] --> decoded_text[122:134] '》,然后轮到后者演绎旧作《' --> ', '", + "replace text[185:201] --> decoded_text[144:155] '》,带领歌迷重温昔日的美好情怀。' --> ','" + ], + "n_oov_chars": 148, + "oov_ratio": 0.736318407960199, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": ", 14, 21,, 7, 1, 6, 14", + "diff": [ + "replace text[0:23] --> decoded_text[0:12] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ', '", + "replace text[25:32] --> decoded_text[14:26] '元,但司机到账' --> ', '", + "replace text[34:44] --> decoded_text[28:46] '元,因此,司机给记者' --> ',, '", + "replace text[45:54] --> decoded_text[47:59] '元,除去之前支付的' --> ', '", + "replace text[55:61] --> decoded_text[60:72] '元,记者净赚' --> ', '", + "replace text[62:73] --> decoded_text[73:85] '元,还免费乘了本应支付' --> ', '", + "replace text[75:79] --> decoded_text[87:92] '元的车。' --> ''" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": " 2012,,, ()", + "diff": [ + "replace text[0:7] --> decoded_text[0:6] '卡尔・斯利姆于' --> ' '", + "replace text[11:110] --> decoded_text[10:34] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,, '", + "replace text[111:114] --> decoded_text[35:40] '方赵春' --> ''" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": ",,,,, :“,, 2, 1,?”,", + "diff": [ + "replace text[0:70] --> decoded_text[0:37] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,, :'", + "replace text[71:88] --> decoded_text[38:56] '老毕,我跟你说了这么长时间,让你走' --> ',, '", + "replace text[89:96] --> decoded_text[57:69] '号位,你非要走' --> ', '", + "replace text[97:111] --> decoded_text[70:82] '号位,你想跟我较死劲是不是?' --> ',?'", + "replace text[112:137] --> decoded_text[83:94] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": ",, 360, 600,, 2", + "diff": [ + "replace text[0:36] --> decoded_text[0:18] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',, '", + "replace text[39:53] --> decoded_text[21:33] '万元人民币,李娜每年的花费是' --> ', '", + "replace text[56:79] --> decoded_text[36:54] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',, '", + "replace text[80:87] --> decoded_text[55:60] '万元就出去了。' --> ''" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ ’,,,,,, ”,", + "diff": [ + "replace text[1:19] --> decoded_text[1:7] '金庸的小说《连城诀》里有一个反派人物' --> ' '", + "replace text[20:24] --> decoded_text[8:14] '血刀老祖' --> ' '", + "replace text[25:72] --> decoded_text[15:40] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,, '", + "replace text[73:115] --> decoded_text[41:59] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',, '", + "replace text[116:120] --> decoded_text[60:66] '拾金而昧' --> ' '", + "replace text[121:123] --> decoded_text[67:74] ',还' --> ', '", + "replace text[124:125] --> decoded_text[75:81] '昧' --> ' '", + "replace text[126:132] --> decoded_text[82:87] '得理直气壮。' --> ''" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ar.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..77531264d60e6e521687b6f678701f19170f629b --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.de.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..629e26e6c5c7f857418b1c3625fae4f322452c80 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.en.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d979744b61249e52ca88219a5b6b19ce7f373b02 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.es.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b90657b036c86d67f13b2d3de20c4ddc41694150 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.fa.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f4e4ecdb515292b758d6286e69b570d824d99d60 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.fr.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ja.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..59c1eda8928a616d850d9d89405e0fca8f845f67 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ja.diff.json @@ -0,0 +1,82 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ko.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..75baab06b7c8132f9a4b52ca8bca1383747ad540 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c1c69d7d03f682b68ae2bc75a4efef27b8377806 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-1B-Instruct @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ar.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..77531264d60e6e521687b6f678701f19170f629b --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.de.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..629e26e6c5c7f857418b1c3625fae4f322452c80 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.en.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d979744b61249e52ca88219a5b6b19ce7f373b02 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.es.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b90657b036c86d67f13b2d3de20c4ddc41694150 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.fa.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f4e4ecdb515292b758d6286e69b570d824d99d60 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.fr.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ja.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..59c1eda8928a616d850d9d89405e0fca8f845f67 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ja.diff.json @@ -0,0 +1,82 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ko.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..75baab06b7c8132f9a4b52ca8bca1383747ad540 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c1c69d7d03f682b68ae2bc75a4efef27b8377806 --- /dev/null +++ b/stats/compression_rate/meta-llama.Llama-3.2-3B-Instruct @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json index ea704b00b050672bf084a1d2fa27862b13ea7605..9fd4644ee225987f1a091a209ea1b97f6151b493 100644 --- a/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", - "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", - "diff": [ - "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.02040816326530612, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json index 6755d9364dbcd5976c6bf0e7b19fdafa0e303465..a316a22b3025cdbe5307446b015bc7f586f767a4 100644 --- a/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json @@ -1,155 +1,155 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[113:114] --> decoded_text[113:114] ',' --> ','", - "replace text[136:137] --> decoded_text[136:137] ',' --> ','", - "replace text[148:149] --> decoded_text[148:149] ',' --> ','", - "replace text[168:169] --> decoded_text[168:169] ',' --> ','", - "replace text[183:184] --> decoded_text[183:184] ',' --> ','", - "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" - ], - "n_oov_chars": 8, - "oov_ratio": 0.037383177570093455, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[51:52] --> decoded_text[51:52] ',' --> ','", - "replace text[87:88] --> decoded_text[87:88] ',' --> ','", - "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", - "replace text[103:104] --> decoded_text[103:104] ',' --> ','", - "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", - "replace text[115:116] --> decoded_text[115:116] ',' --> ','" - ], - "n_oov_chars": 6, - "oov_ratio": 0.04838709677419355, - "oov_charset": "[\",\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.038461538461538464, - "oov_charset": "[\",\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", - "replace text[80:81] --> decoded_text[80:81] ',' --> ','", - "replace text[94:95] --> decoded_text[94:95] ',' --> ','", - "replace text[133:134] --> decoded_text[133:134] ',' --> ','", - "replace text[145:146] --> decoded_text[145:146] ',' --> ','", - "replace text[163:164] --> decoded_text[163:164] ',' --> ','", - "replace text[186:187] --> decoded_text[186:187] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.04477611940298507, - "oov_charset": "[\",\", \":\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[13:14] --> decoded_text[13:14] ',' --> ','", - "replace text[26:27] --> decoded_text[26:27] ',' --> ','", - "replace text[35:36] --> decoded_text[35:36] ',' --> ','", - "replace text[38:39] --> decoded_text[38:39] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[56:57] --> decoded_text[56:57] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.08860759493670886, - "oov_charset": "[\",\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[65:66] --> decoded_text[65:66] ',' --> ','", - "replace text[83:84] --> decoded_text[83:84] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.02608695652173913, - "oov_charset": "[\",\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[31:32] --> decoded_text[31:32] ',' --> ','", - "replace text[42:43] --> decoded_text[42:43] ',' --> ','", - "replace text[46:47] --> decoded_text[46:47] ',' --> ','", - "replace text[63:64] --> decoded_text[63:64] ',' --> ','", - "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", - "replace text[73:74] --> decoded_text[73:74] ',' --> ','", - "replace text[84:85] --> decoded_text[84:85] ',' --> ','", - "replace text[91:92] --> decoded_text[91:92] ',' --> ','", - "replace text[99:100] --> decoded_text[99:100] ',' --> ','", - "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", - "replace text[127:128] --> decoded_text[127:128] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.08759124087591241, - "oov_charset": "[\",\", \":\", \"?\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "diff": [ - "replace text[12:13] --> decoded_text[12:13] ',' --> ','", - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[44:45] --> decoded_text[44:45] ',' --> ','", - "replace text[68:69] --> decoded_text[68:69] ',' --> ','", - "replace text[76:77] --> decoded_text[76:77] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.05747126436781609, - "oov_charset": "[\",\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[25:26] --> decoded_text[25:26] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[53:54] --> decoded_text[53:54] ',' --> ','", - "replace text[58:59] --> decoded_text[58:59] ',' --> ','", - "replace text[95:96] --> decoded_text[95:96] ',' --> ','", - "replace text[107:108] --> decoded_text[107:108] ',' --> ','", - "replace text[121:122] --> decoded_text[121:122] ',' --> ','" - ], - "n_oov_chars": 7, - "oov_ratio": 0.05303030303030303, - "oov_charset": "[\",\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json index 8b5e785d18e55696bbd13ba03bad7e4f21020980..b9707b201f68b10c437a90e67e7e9c7d15214823 100644 --- a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "decoded_text": "[UNK]EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '\\u200b' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005813953488372093, - "oov_charset": "[\"​\"]" - }, - { - "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "decoded_text": "[UNK]Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", - "diff": [ - "replace text[0:1] --> decoded_text[0:5] '\\u200b' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.005405405405405406, - "oov_charset": "[\"​\"]" - }, - { - "text": "Would love some tatts, but too much of a wimp to get them! 😥", - "decoded_text": "Would love some tatts, but too much of a wimp to get them! [UNK]", - "diff": [ - "replace text[59:60] --> decoded_text[59:64] '😥' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016666666666666666, - "oov_charset": "[\"😥\"]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "[UNK]EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '\\u200b' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "[UNK]Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '\\u200b' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! [UNK]", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json index 535c72e89317c26e14dfe81e03304bfcd85239ec..e5df077b7cea4aa567b78fecae41ca3e283b9e54 100644 --- a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json @@ -1,106 +1,106 @@ -[ - { - "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", - "diff": [ - "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", - "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.01098901098901099, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", - "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", - "diff": [ - "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0033444816053511705, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", - "diff": [ - "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0014492753623188406, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", - "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", - "diff": [ - "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", - "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" - ], - "n_oov_chars": 3, - "oov_ratio": 0.010526315789473684, - "oov_charset": "[\"…\"]" - }, - { - "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", - "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", - "diff": [ - "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.0049261083743842365, - "oov_charset": "[\"…\"]" - }, - { - "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", - "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", - "diff": [ - "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"…\"]" - }, - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json index 70c1c0795c35a30bf3faa61e7f45b03db2b05262..f508125feaff3095c8d1fbc5a236502b6d67e967 100644 --- a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.015873015873015872, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - }, - { - "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", - "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", - "diff": [ - "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.016129032258064516, - "oov_charset": "[\"…\"]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json index 35767ffe421caf150842be47401da511eed79f6d..b6bba4c96f839f016d71ca2c5fc2c914e4ad9af3 100644 --- a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json @@ -1,184 +1,184 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并[UNK]责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的[UNK]业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现[UNK]段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "diff": [ - "replace text[57:58] --> decoded_text[57:58] ',' --> ','", - "replace text[59:60] --> decoded_text[59:64] '负' --> '[UNK]'", - "replace text[92:93] --> decoded_text[96:101] '毕' --> '[UNK]'", - "replace text[95:96] --> decoded_text[103:104] ',' --> ','", - "replace text[113:114] --> decoded_text[121:122] ',' --> ','", - "replace text[136:137] --> decoded_text[144:145] ',' --> ','", - "replace text[148:149] --> decoded_text[156:157] ',' --> ','", - "replace text[150:151] --> decoded_text[158:163] '阶' --> '[UNK]'", - "replace text[168:169] --> decoded_text[180:181] ',' --> ','", - "replace text[183:184] --> decoded_text[195:196] ',' --> ','", - "replace text[213:214] --> decoded_text[225:226] ':' --> ':'" - ], - "n_oov_chars": 11, - "oov_ratio": 0.0514018691588785, - "oov_charset": "[\",\", \"负\", \"毕\", \"阶\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国[UNK]圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫[UNK]因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫[UNK]经历了[UNK]心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "diff": [ - "replace text[21:22] --> decoded_text[21:26] '驻' --> '[UNK]'", - "replace text[51:52] --> decoded_text[55:56] ',' --> ','", - "replace text[64:65] --> decoded_text[68:73] '妇' --> '[UNK]'", - "replace text[87:88] --> decoded_text[95:96] ',' --> ','", - "replace text[91:92] --> decoded_text[99:104] '妇' --> '[UNK]'", - "replace text[95:96] --> decoded_text[107:112] '惊' --> '[UNK]'", - "replace text[100:101] --> decoded_text[116:117] '3' --> '3'", - "replace text[103:104] --> decoded_text[119:120] ',' --> ','", - "replace text[112:113] --> decoded_text[128:129] '5' --> '5'", - "replace text[115:116] --> decoded_text[131:132] ',' --> ','" - ], - "n_oov_chars": 10, - "oov_ratio": 0.08064516129032258, - "oov_charset": "[\"驻\", \",\", \"妇\", \"惊\", \"3\", \"5\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "diff": [ - "replace text[16:17] --> decoded_text[16:17] ',' --> ','", - "replace text[40:41] --> decoded_text[40:41] ',' --> ','", - "replace text[60:61] --> decoded_text[60:61] ',' --> ','" - ], - "n_oov_chars": 3, - "oov_ratio": 0.0375, - "oov_charset": "[\",\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国[UNK]东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[48:49] --> decoded_text[48:49] ',' --> ','", - "replace text[55:56] --> decoded_text[55:60] '驻' --> '[UNK]'", - "replace text[63:64] --> decoded_text[67:68] ',' --> ','" - ], - "n_oov_chars": 4, - "oov_ratio": 0.05128205128205128, - "oov_charset": "[\",\", \"驻\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名[UNK]存成员:保罗麦卡尼及灵高史达(RingoStarr)[UNK]发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)[UNK]责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演[UNK]旧作《Photograph》,带领歌迷重温昔日的美好情[UNK]。", - "diff": [ - "replace text[15:16] --> decoded_text[15:16] ',' --> ','", - "replace text[39:40] --> decoded_text[39:40] ',' --> ','", - "replace text[46:47] --> decoded_text[46:51] '仅' --> '[UNK]'", - "replace text[50:51] --> decoded_text[54:55] ':' --> ':'", - "replace text[73:74] --> decoded_text[77:82] '颁' --> '[UNK]'", - "replace text[80:81] --> decoded_text[88:89] ',' --> ','", - "replace text[94:95] --> decoded_text[102:103] ',' --> ','", - "replace text[125:126] --> decoded_text[133:138] '负' --> '[UNK]'", - "replace text[133:134] --> decoded_text[145:146] ',' --> ','", - "replace text[145:146] --> decoded_text[157:158] ',' --> ','", - "replace text[163:164] --> decoded_text[175:176] ',' --> ','", - "replace text[171:172] --> decoded_text[183:188] '绎' --> '[UNK]'", - "replace text[186:187] --> decoded_text[202:203] ',' --> ','", - "replace text[199:200] --> decoded_text[215:220] '怀' --> '[UNK]'" - ], - "n_oov_chars": 14, - "oov_ratio": 0.06965174129353234, - "oov_charset": "[\",\", \"仅\", \":\", \"颁\", \"负\", \"绎\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛牌[UNK]哪里有[UNK]到达目的地后,记者全程的总车费是14元,但司机到[UNK]21元,因此,司机给记者7元,除去之前支付的1元,记者[UNK]6元,还免费乘了本应支付14元的车。", - "diff": [ - "replace text[2:3] --> decoded_text[2:7] '绳' --> '[UNK]'", - "replace text[6:7] --> decoded_text[10:15] '卖' --> '[UNK]'", - "replace text[13:14] --> decoded_text[21:22] ',' --> ','", - "replace text[26:27] --> decoded_text[34:35] ',' --> ','", - "replace text[31:32] --> decoded_text[39:44] '账' --> '[UNK]'", - "replace text[35:36] --> decoded_text[47:48] ',' --> ','", - "replace text[38:39] --> decoded_text[50:51] ',' --> ','", - "replace text[46:47] --> decoded_text[58:59] ',' --> ','", - "replace text[56:57] --> decoded_text[68:69] ',' --> ','", - "replace text[59:61] --> decoded_text[71:76] '净赚' --> '[UNK]'", - "replace text[63:64] --> decoded_text[78:79] ',' --> ','" - ], - "n_oov_chars": 12, - "oov_ratio": 0.1518987341772152, - "oov_charset": "[\"绳\", \"卖\", \",\", \"账\", \"净\", \"赚\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并[UNK]责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的[UNK]业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "diff": [ - "replace text[27:28] --> decoded_text[27:28] ',' --> ','", - "replace text[29:30] --> decoded_text[29:34] '负' --> '[UNK]'", - "replace text[62:63] --> decoded_text[66:71] '毕' --> '[UNK]'", - "replace text[65:66] --> decoded_text[73:74] ',' --> ','", - "replace text[83:84] --> decoded_text[91:92] ',' --> ','" - ], - "n_oov_chars": 5, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\",\", \"负\", \"毕\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情[UNK],就让他[UNK]吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开[UNK]:“老[UNK],我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我[UNK]死[UNK]是不是?”这也是[UNK]人。但因为你非常了解他,他也不一定有[UNK]意。", - "diff": [ - "replace text[19:20] --> decoded_text[19:20] ',' --> ','", - "replace text[30:32] --> decoded_text[30:36] '绪,' --> '[UNK],'", - "replace text[35:36] --> decoded_text[39:44] '骂' --> '[UNK]'", - "replace text[42:43] --> decoded_text[50:51] ',' --> ','", - "replace text[46:47] --> decoded_text[54:55] ',' --> ','", - "replace text[63:64] --> decoded_text[71:72] ',' --> ','", - "replace text[68:70] --> decoded_text[76:82] '骂:' --> '[UNK]:'", - "replace text[72:74] --> decoded_text[84:90] '毕,' --> '[UNK],'", - "replace text[84:85] --> decoded_text[100:101] ',' --> ','", - "replace text[91:92] --> decoded_text[107:108] ',' --> ','", - "replace text[99:100] --> decoded_text[115:116] ',' --> ','", - "replace text[104:105] --> decoded_text[120:125] '较' --> '[UNK]'", - "replace text[106:107] --> decoded_text[126:131] '劲' --> '[UNK]'", - "replace text[110:111] --> decoded_text[134:135] '?' --> '?'", - "replace text[115:116] --> decoded_text[139:144] '骂' --> '[UNK]'", - "replace text[127:128] --> decoded_text[155:156] ',' --> ','", - "replace text[134:135] --> decoded_text[162:167] '恶' --> '[UNK]'" - ], - "n_oov_chars": 20, - "oov_ratio": 0.145985401459854, - "oov_charset": "[\",\", \"绪\", \"骂\", \":\", \"毕\", \"较\", \"劲\", \"?\", \"恶\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "招财带什么佛牌不过[UNK]得多,娜姐也花得多。有媒体报道,教[UNK]卡洛斯的年薪高达360万元人民[UNK],李娜每年的花费是600多万元。用一个形象的比[UNK],娜姐每天一[UNK]眼,将近2万元就出去了。", - "diff": [ - "replace text[9:10] --> decoded_text[9:14] '挣' --> '[UNK]'", - "replace text[12:13] --> decoded_text[16:17] ',' --> ','", - "replace text[25:26] --> decoded_text[29:30] ',' --> ','", - "replace text[27:28] --> decoded_text[31:36] '练' --> '[UNK]'", - "replace text[43:45] --> decoded_text[51:57] '币,' --> '[UNK],'", - "replace text[67:69] --> decoded_text[79:85] '喻,' --> '[UNK],'", - "replace text[74:75] --> decoded_text[90:95] '睁' --> '[UNK]'", - "replace text[76:77] --> decoded_text[96:97] ',' --> ','" - ], - "n_oov_chars": 10, - "oov_ratio": 0.11494252873563218, - "oov_charset": "[\"挣\", \",\", \"练\", \"币\", \"喻\", \"睁\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“金庸的小说《连城[UNK]》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不[UNK]“拾金而昧”,还“昧”得理直气壮。", - "diff": [ - "replace text[9:10] --> decoded_text[9:14] '诀' --> '[UNK]'", - "replace text[25:26] --> decoded_text[29:30] ',' --> ','", - "replace text[39:40] --> decoded_text[43:44] ',' --> ','", - "replace text[53:54] --> decoded_text[57:58] ',' --> ','", - "replace text[58:59] --> decoded_text[62:63] ',' --> ','", - "replace text[95:96] --> decoded_text[99:100] ',' --> ','", - "replace text[107:108] --> decoded_text[111:112] ',' --> ','", - "replace text[114:115] --> decoded_text[118:123] '仅' --> '[UNK]'", - "replace text[121:122] --> decoded_text[129:130] ',' --> ','" - ], - "n_oov_chars": 9, - "oov_ratio": 0.06818181818181818, - "oov_charset": "[\"诀\", \",\", \"仅\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并[UNK]责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的[UNK]业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现[UNK]段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[59:60] --> decoded_text[59:64] '负' --> '[UNK]'", + "replace text[92:93] --> decoded_text[96:101] '毕' --> '[UNK]'", + "replace text[95:96] --> decoded_text[103:104] ',' --> ','", + "replace text[113:114] --> decoded_text[121:122] ',' --> ','", + "replace text[136:137] --> decoded_text[144:145] ',' --> ','", + "replace text[148:149] --> decoded_text[156:157] ',' --> ','", + "replace text[150:151] --> decoded_text[158:163] '阶' --> '[UNK]'", + "replace text[168:169] --> decoded_text[180:181] ',' --> ','", + "replace text[183:184] --> decoded_text[195:196] ',' --> ','", + "replace text[213:214] --> decoded_text[225:226] ':' --> ':'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.0514018691588785, + "oov_charset": "[\",\", \"负\", \"毕\", \"阶\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国[UNK]圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫[UNK]因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫[UNK]经历了[UNK]心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[21:22] --> decoded_text[21:26] '驻' --> '[UNK]'", + "replace text[51:52] --> decoded_text[55:56] ',' --> ','", + "replace text[64:65] --> decoded_text[68:73] '妇' --> '[UNK]'", + "replace text[87:88] --> decoded_text[95:96] ',' --> ','", + "replace text[91:92] --> decoded_text[99:104] '妇' --> '[UNK]'", + "replace text[95:96] --> decoded_text[107:112] '惊' --> '[UNK]'", + "replace text[100:101] --> decoded_text[116:117] '3' --> '3'", + "replace text[103:104] --> decoded_text[119:120] ',' --> ','", + "replace text[112:113] --> decoded_text[128:129] '5' --> '5'", + "replace text[115:116] --> decoded_text[131:132] ',' --> ','" + ], + "n_oov_chars": 10, + "oov_ratio": 0.08064516129032258, + "oov_charset": "[\"驻\", \",\", \"妇\", \"惊\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国[UNK]东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[55:56] --> decoded_text[55:60] '驻' --> '[UNK]'", + "replace text[63:64] --> decoded_text[67:68] ',' --> ','" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\",\", \"驻\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名[UNK]存成员:保罗麦卡尼及灵高史达(RingoStarr)[UNK]发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)[UNK]责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演[UNK]旧作《Photograph》,带领歌迷重温昔日的美好情[UNK]。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[46:47] --> decoded_text[46:51] '仅' --> '[UNK]'", + "replace text[50:51] --> decoded_text[54:55] ':' --> ':'", + "replace text[73:74] --> decoded_text[77:82] '颁' --> '[UNK]'", + "replace text[80:81] --> decoded_text[88:89] ',' --> ','", + "replace text[94:95] --> decoded_text[102:103] ',' --> ','", + "replace text[125:126] --> decoded_text[133:138] '负' --> '[UNK]'", + "replace text[133:134] --> decoded_text[145:146] ',' --> ','", + "replace text[145:146] --> decoded_text[157:158] ',' --> ','", + "replace text[163:164] --> decoded_text[175:176] ',' --> ','", + "replace text[171:172] --> decoded_text[183:188] '绎' --> '[UNK]'", + "replace text[186:187] --> decoded_text[202:203] ',' --> ','", + "replace text[199:200] --> decoded_text[215:220] '怀' --> '[UNK]'" + ], + "n_oov_chars": 14, + "oov_ratio": 0.06965174129353234, + "oov_charset": "[\",\", \"仅\", \":\", \"颁\", \"负\", \"绎\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌[UNK]哪里有[UNK]到达目的地后,记者全程的总车费是14元,但司机到[UNK]21元,因此,司机给记者7元,除去之前支付的1元,记者[UNK]6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[2:3] --> decoded_text[2:7] '绳' --> '[UNK]'", + "replace text[6:7] --> decoded_text[10:15] '卖' --> '[UNK]'", + "replace text[13:14] --> decoded_text[21:22] ',' --> ','", + "replace text[26:27] --> decoded_text[34:35] ',' --> ','", + "replace text[31:32] --> decoded_text[39:44] '账' --> '[UNK]'", + "replace text[35:36] --> decoded_text[47:48] ',' --> ','", + "replace text[38:39] --> decoded_text[50:51] ',' --> ','", + "replace text[46:47] --> decoded_text[58:59] ',' --> ','", + "replace text[56:57] --> decoded_text[68:69] ',' --> ','", + "replace text[59:61] --> decoded_text[71:76] '净赚' --> '[UNK]'", + "replace text[63:64] --> decoded_text[78:79] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.1518987341772152, + "oov_charset": "[\"绳\", \"卖\", \",\", \"账\", \"净\", \"赚\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并[UNK]责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的[UNK]业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[29:30] --> decoded_text[29:34] '负' --> '[UNK]'", + "replace text[62:63] --> decoded_text[66:71] '毕' --> '[UNK]'", + "replace text[65:66] --> decoded_text[73:74] ',' --> ','", + "replace text[83:84] --> decoded_text[91:92] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\",\", \"负\", \"毕\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情[UNK],就让他[UNK]吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开[UNK]:“老[UNK],我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我[UNK]死[UNK]是不是?”这也是[UNK]人。但因为你非常了解他,他也不一定有[UNK]意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[30:32] --> decoded_text[30:36] '绪,' --> '[UNK],'", + "replace text[35:36] --> decoded_text[39:44] '骂' --> '[UNK]'", + "replace text[42:43] --> decoded_text[50:51] ',' --> ','", + "replace text[46:47] --> decoded_text[54:55] ',' --> ','", + "replace text[63:64] --> decoded_text[71:72] ',' --> ','", + "replace text[68:70] --> decoded_text[76:82] '骂:' --> '[UNK]:'", + "replace text[72:74] --> decoded_text[84:90] '毕,' --> '[UNK],'", + "replace text[84:85] --> decoded_text[100:101] ',' --> ','", + "replace text[91:92] --> decoded_text[107:108] ',' --> ','", + "replace text[99:100] --> decoded_text[115:116] ',' --> ','", + "replace text[104:105] --> decoded_text[120:125] '较' --> '[UNK]'", + "replace text[106:107] --> decoded_text[126:131] '劲' --> '[UNK]'", + "replace text[110:111] --> decoded_text[134:135] '?' --> '?'", + "replace text[115:116] --> decoded_text[139:144] '骂' --> '[UNK]'", + "replace text[127:128] --> decoded_text[155:156] ',' --> ','", + "replace text[134:135] --> decoded_text[162:167] '恶' --> '[UNK]'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.145985401459854, + "oov_charset": "[\",\", \"绪\", \"骂\", \":\", \"毕\", \"较\", \"劲\", \"?\", \"恶\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过[UNK]得多,娜姐也花得多。有媒体报道,教[UNK]卡洛斯的年薪高达360万元人民[UNK],李娜每年的花费是600多万元。用一个形象的比[UNK],娜姐每天一[UNK]眼,将近2万元就出去了。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '挣' --> '[UNK]'", + "replace text[12:13] --> decoded_text[16:17] ',' --> ','", + "replace text[25:26] --> decoded_text[29:30] ',' --> ','", + "replace text[27:28] --> decoded_text[31:36] '练' --> '[UNK]'", + "replace text[43:45] --> decoded_text[51:57] '币,' --> '[UNK],'", + "replace text[67:69] --> decoded_text[79:85] '喻,' --> '[UNK],'", + "replace text[74:75] --> decoded_text[90:95] '睁' --> '[UNK]'", + "replace text[76:77] --> decoded_text[96:97] ',' --> ','" + ], + "n_oov_chars": 10, + "oov_ratio": 0.11494252873563218, + "oov_charset": "[\"挣\", \",\", \"练\", \"币\", \"喻\", \"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城[UNK]》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不[UNK]“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '诀' --> '[UNK]'", + "replace text[25:26] --> decoded_text[29:30] ',' --> ','", + "replace text[39:40] --> decoded_text[43:44] ',' --> ','", + "replace text[53:54] --> decoded_text[57:58] ',' --> ','", + "replace text[58:59] --> decoded_text[62:63] ',' --> ','", + "replace text[95:96] --> decoded_text[99:100] ',' --> ','", + "replace text[107:108] --> decoded_text[111:112] ',' --> ','", + "replace text[114:115] --> decoded_text[118:123] '仅' --> '[UNK]'", + "replace text[121:122] --> decoded_text[129:130] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.06818181818181818, + "oov_charset": "[\"诀\", \",\", \"仅\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json index cfb38f11c0b73321ac681574d920016118f70c15..c1c69d7d03f682b68ae2bc75a4efef27b8377806 100644 --- a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", - "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", - "diff": [ - "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", - "diff": [ - "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", - "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", - "diff": [ - "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", - "diff": [ - "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json index 8bd59d1606c76909e6921989e7a7840db10e7aac..b830c844acfc913d6222a872bdd3fce2fa2bc054 100644 --- a/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json @@ -1,141 +1,141 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0005\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006\u0005。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0005\u0006\u0005\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0005\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0005\u0006\u0007\u0007\u0006。几天后\u0006\u0005\b\u0007\b,孙某找到了宋某\b\b\u0007\u0005,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006\u0005,只要他给30万“封口费”\u0005\u0005\u0006\u0005\u0006,她就不会将他们的关系公之于众\u0007\u0005\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\u0005\b\u0007,双方在讨价还价后\b\u0005\b\b,张某决定给孙某10万元了事\b\b\b\u0005。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007\u0005,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\u0005\u0005\b、张某和何某\u0005\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", - "decoded_text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0006\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0006\u0007\u0007\u0006。几天后\u0006\b\u0007\b,孙某找到了宋某\b\b\u0007,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006,只要他给30万“封口费”\u0006\u0006,她就不会将他们的关系公之于众\u0007\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\b\u0007,双方在讨价还价后\b\b\b,张某决定给孙某10万元了事\b\b\b。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\b、张某和何某\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", - "diff": [ - "delete text[27:28] --> decoded_text[27:27] '\\x05' --> ''", - "delete text[52:53] --> decoded_text[51:51] '\\x05' --> ''", - "replace text[106:109] --> decoded_text[104:105] '\\x05\\x06\\x05' --> '\\x06'", - "delete text[134:135] --> decoded_text[130:130] '\\x05' --> ''", - "delete text[162:163] --> decoded_text[157:157] '\\x05' --> ''", - "delete text[172:173] --> decoded_text[166:166] '\\x05' --> ''", - "delete text[187:188] --> decoded_text[180:180] '\\x05' --> ''", - "delete text[213:214] --> decoded_text[205:205] '\\x05' --> ''", - "replace text[227:231] --> decoded_text[218:219] '\\x05\\x05\\x06\\x05' --> '\\x06'", - "delete text[248:249] --> decoded_text[236:236] '\\x05' --> ''", - "delete text[276:277] --> decoded_text[263:263] '\\x05' --> ''", - "delete text[289:290] --> decoded_text[275:275] '\\x05' --> ''", - "delete text[309:310] --> decoded_text[294:294] '\\x05' --> ''", - "delete text[345:346] --> decoded_text[329:329] '\\x05' --> ''", - "delete text[371:373] --> decoded_text[354:354] '\\x05\\x05' --> ''", - "delete text[380:381] --> decoded_text[361:361] '\\x05' --> ''" - ], - "n_oov_chars": 20, - "oov_ratio": 0.04866180048661801, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "拿到终审判决\u0007\b\u0006\u0005\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\u0005\b\u0006\u0005,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b\u0005。", - "decoded_text": "拿到终审判决\u0007\b\u0006\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\b\u0006,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b。", - "diff": [ - "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", - "delete text[28:29] --> decoded_text[27:27] '\\x05' --> ''", - "delete text[31:32] --> decoded_text[29:29] '\\x05' --> ''", - "delete text[90:91] --> decoded_text[87:87] '\\x05' --> ''" - ], - "n_oov_chars": 4, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "本报讯为达到长期霸占弟媳的目的\u0005\u0005\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0005\u0006\u0005。日前\u0005\u0006\u0006\u0007\u0005,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\u0005\u0005\b\u0006\u0005,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", - "decoded_text": "本报讯为达到长期霸占弟媳的目的\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0006。日前\u0006\u0006\u0007,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\b\u0006,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", - "diff": [ - "delete text[15:17] --> decoded_text[15:15] '\\x05\\x05' --> ''", - "delete text[37:38] --> decoded_text[35:35] '\\x05' --> ''", - "delete text[39:40] --> decoded_text[36:36] '\\x05' --> ''", - "delete text[43:44] --> decoded_text[39:39] '\\x05' --> ''", - "delete text[47:48] --> decoded_text[42:42] '\\x05' --> ''", - "delete text[76:78] --> decoded_text[70:70] '\\x05\\x05' --> ''", - "delete text[80:81] --> decoded_text[72:72] '\\x05' --> ''" - ], - "n_oov_chars": 9, - "oov_ratio": 0.09375, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0005\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0005\u0006\u0005\u0006\u0005,女主角是我不认识的陌生女人\u0006\u0005。", - "decoded_text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0006\u0006,女主角是我不认识的陌生女人\u0006。", - "diff": [ - "delete text[29:30] --> decoded_text[29:29] '\\x05' --> ''", - "delete text[66:67] --> decoded_text[65:65] '\\x05' --> ''", - "delete text[68:69] --> decoded_text[66:66] '\\x05' --> ''", - "delete text[70:71] --> decoded_text[67:67] '\\x05' --> ''", - "delete text[86:87] --> decoded_text[82:82] '\\x05' --> ''" - ], - "n_oov_chars": 5, - "oov_ratio": 0.056818181818181816, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "我和男友是一见钟情\u0005\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0005\u0007。我认识他是在学校的健身房\b\b\u0005\u0005,我扭伤了脚\u0006\b\u0006\u0005,他来帮忙\b\u0007\b\u0005\b。下午四点钟的阳光从窗户射进来时\b\u0005\u0007\u0005,他身上闪烁的光芒让我着迷\u0005\u0005\b\u0005。就这样\u0005\b\b\u0007\u0005,我无可救药地爱上了他\u0005\u0005\b\u0007。", - "decoded_text": "我和男友是一见钟情\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0007。我认识他是在学校的健身房\b\b,我扭伤了脚\u0006\b\u0006,他来帮忙\b\u0007\b\b。下午四点钟的阳光从窗户射进来时\b\u0007,他身上闪烁的光芒让我着迷\b。就这样\b\b\u0007,我无可救药地爱上了他\b\u0007。", - "diff": [ - "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", - "delete text[30:31] --> decoded_text[29:29] '\\x05' --> ''", - "delete text[47:49] --> decoded_text[45:45] '\\x05\\x05' --> ''", - "delete text[58:59] --> decoded_text[54:54] '\\x05' --> ''", - "delete text[67:68] --> decoded_text[62:62] '\\x05' --> ''", - "delete text[86:87] --> decoded_text[80:80] '\\x05' --> ''", - "delete text[88:89] --> decoded_text[81:81] '\\x05' --> ''", - "delete text[102:104] --> decoded_text[94:94] '\\x05\\x05' --> ''", - "delete text[105:106] --> decoded_text[95:95] '\\x05' --> ''", - "delete text[110:111] --> decoded_text[99:99] '\\x05' --> ''", - "delete text[114:115] --> decoded_text[102:102] '\\x05' --> ''", - "delete text[126:128] --> decoded_text[113:113] '\\x05\\x05' --> ''" - ], - "n_oov_chars": 15, - "oov_ratio": 0.11450381679389313, - "oov_charset": "[\"\\u0005\"]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0005\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006\u0005。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0005\u0006\u0005\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0005\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0005\u0006\u0007\u0007\u0006。几天后\u0006\u0005\b\u0007\b,孙某找到了宋某\b\b\u0007\u0005,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006\u0005,只要他给30万“封口费”\u0005\u0005\u0006\u0005\u0006,她就不会将他们的关系公之于众\u0007\u0005\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\u0005\b\u0007,双方在讨价还价后\b\u0005\b\b,张某决定给孙某10万元了事\b\b\b\u0005。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007\u0005,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\u0005\u0005\b、张某和何某\u0005\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "decoded_text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0006\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0006\u0007\u0007\u0006。几天后\u0006\b\u0007\b,孙某找到了宋某\b\b\u0007,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006,只要他给30万“封口费”\u0006\u0006,她就不会将他们的关系公之于众\u0007\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\b\u0007,双方在讨价还价后\b\b\b,张某决定给孙某10万元了事\b\b\b。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\b、张某和何某\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[52:53] --> decoded_text[51:51] '\\x05' --> ''", + "replace text[106:109] --> decoded_text[104:105] '\\x05\\x06\\x05' --> '\\x06'", + "delete text[134:135] --> decoded_text[130:130] '\\x05' --> ''", + "delete text[162:163] --> decoded_text[157:157] '\\x05' --> ''", + "delete text[172:173] --> decoded_text[166:166] '\\x05' --> ''", + "delete text[187:188] --> decoded_text[180:180] '\\x05' --> ''", + "delete text[213:214] --> decoded_text[205:205] '\\x05' --> ''", + "replace text[227:231] --> decoded_text[218:219] '\\x05\\x05\\x06\\x05' --> '\\x06'", + "delete text[248:249] --> decoded_text[236:236] '\\x05' --> ''", + "delete text[276:277] --> decoded_text[263:263] '\\x05' --> ''", + "delete text[289:290] --> decoded_text[275:275] '\\x05' --> ''", + "delete text[309:310] --> decoded_text[294:294] '\\x05' --> ''", + "delete text[345:346] --> decoded_text[329:329] '\\x05' --> ''", + "delete text[371:373] --> decoded_text[354:354] '\\x05\\x05' --> ''", + "delete text[380:381] --> decoded_text[361:361] '\\x05' --> ''" + ], + "n_oov_chars": 20, + "oov_ratio": 0.04866180048661801, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "拿到终审判决\u0007\b\u0006\u0005\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\u0005\b\u0006\u0005,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b\u0005。", + "decoded_text": "拿到终审判决\u0007\b\u0006\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\b\u0006,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[28:29] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[31:32] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[90:91] --> decoded_text[87:87] '\\x05' --> ''" + ], + "n_oov_chars": 4, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "本报讯为达到长期霸占弟媳的目的\u0005\u0005\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0005\u0006\u0005。日前\u0005\u0006\u0006\u0007\u0005,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\u0005\u0005\b\u0006\u0005,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "decoded_text": "本报讯为达到长期霸占弟媳的目的\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0006。日前\u0006\u0006\u0007,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\b\u0006,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "diff": [ + "delete text[15:17] --> decoded_text[15:15] '\\x05\\x05' --> ''", + "delete text[37:38] --> decoded_text[35:35] '\\x05' --> ''", + "delete text[39:40] --> decoded_text[36:36] '\\x05' --> ''", + "delete text[43:44] --> decoded_text[39:39] '\\x05' --> ''", + "delete text[47:48] --> decoded_text[42:42] '\\x05' --> ''", + "delete text[76:78] --> decoded_text[70:70] '\\x05\\x05' --> ''", + "delete text[80:81] --> decoded_text[72:72] '\\x05' --> ''" + ], + "n_oov_chars": 9, + "oov_ratio": 0.09375, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0005\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0005\u0006\u0005\u0006\u0005,女主角是我不认识的陌生女人\u0006\u0005。", + "decoded_text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0006\u0006,女主角是我不认识的陌生女人\u0006。", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[66:67] --> decoded_text[65:65] '\\x05' --> ''", + "delete text[68:69] --> decoded_text[66:66] '\\x05' --> ''", + "delete text[70:71] --> decoded_text[67:67] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[82:82] '\\x05' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.056818181818181816, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "我和男友是一见钟情\u0005\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0005\u0007。我认识他是在学校的健身房\b\b\u0005\u0005,我扭伤了脚\u0006\b\u0006\u0005,他来帮忙\b\u0007\b\u0005\b。下午四点钟的阳光从窗户射进来时\b\u0005\u0007\u0005,他身上闪烁的光芒让我着迷\u0005\u0005\b\u0005。就这样\u0005\b\b\u0007\u0005,我无可救药地爱上了他\u0005\u0005\b\u0007。", + "decoded_text": "我和男友是一见钟情\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0007。我认识他是在学校的健身房\b\b,我扭伤了脚\u0006\b\u0006,他来帮忙\b\u0007\b\b。下午四点钟的阳光从窗户射进来时\b\u0007,他身上闪烁的光芒让我着迷\b。就这样\b\b\u0007,我无可救药地爱上了他\b\u0007。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[30:31] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[47:49] --> decoded_text[45:45] '\\x05\\x05' --> ''", + "delete text[58:59] --> decoded_text[54:54] '\\x05' --> ''", + "delete text[67:68] --> decoded_text[62:62] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[80:80] '\\x05' --> ''", + "delete text[88:89] --> decoded_text[81:81] '\\x05' --> ''", + "delete text[102:104] --> decoded_text[94:94] '\\x05\\x05' --> ''", + "delete text[105:106] --> decoded_text[95:95] '\\x05' --> ''", + "delete text[110:111] --> decoded_text[99:99] '\\x05' --> ''", + "delete text[114:115] --> decoded_text[102:102] '\\x05' --> ''", + "delete text[126:128] --> decoded_text[113:113] '\\x05\\x05' --> ''" + ], + "n_oov_chars": 15, + "oov_ratio": 0.11450381679389313, + "oov_charset": "[\"\\u0005\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json index 1deacdda4b32c4e34735e6d6ccc8fe6959a80f52..d979744b61249e52ca88219a5b6b19ce7f373b02 100644 --- a/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json @@ -1,103 +1,103 @@ -[ - { - "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", - "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", - "diff": [ - "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", - "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", - "diff": [ - "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", - "diff": [ - "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", - "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", - "diff": [ - "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", - "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", - "diff": [ - "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", - "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", - "diff": [ - "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", - "diff": [ - "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", - "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", - "diff": [ - "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", - "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", - "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", - "diff": [ - "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", - "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", - "diff": [ - "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json index b9cec9a8b3fcf170bb95866eee6cedb7702e251e..b90657b036c86d67f13b2d3de20c4ddc41694150 100644 --- a/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json @@ -1,104 +1,104 @@ -[ - { - "text": "Actividad física , Deporte , Salud", - "decoded_text": "Actividad física, Deporte, Salud", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", - "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", - "diff": [ - "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", - "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", - "diff": [ - "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", - "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Si , podría hacerte un precio. La medida va desde el exterior.", - "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", - "diff": [ - "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", - "diff": [ - "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", - "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", - "diff": [ - "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", - "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", - "diff": [ - "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", - "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", - "diff": [ - "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", - "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", - "diff": [ - "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", - "diff": [ - "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json index 107153a2926c24d9125689509690e50c617c755b..77c4141fcf4750b5fd725b2dc90c0872cb8c5632 100644 --- a/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json @@ -1,102 +1,102 @@ -[ - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", - "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", - "diff": [ - "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", - "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", - "diff": [ - "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", - "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", - "diff": [ - "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", - "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", - "diff": [ - "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Quand les élus se réunissent-ils ?", - "decoded_text": "Quand les élus se réunissent-ils?", - "diff": [ - "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", - "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", - "diff": [ - "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", - "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", - "diff": [ - "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", - "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", - "diff": [ - "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", - "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", - "diff": [ - "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json index 8bd59d1606c76909e6921989e7a7840db10e7aac..b830c844acfc913d6222a872bdd3fce2fa2bc054 100644 --- a/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json @@ -1,141 +1,141 @@ -[ - { - "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", - "diff": [ - "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", - "diff": [ - "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", - "diff": [ - "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", - "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", - "diff": [ - "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", - "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", - "diff": [ - "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0005\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006\u0005。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0005\u0006\u0005\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0005\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0005\u0006\u0007\u0007\u0006。几天后\u0006\u0005\b\u0007\b,孙某找到了宋某\b\b\u0007\u0005,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006\u0005,只要他给30万“封口费”\u0005\u0005\u0006\u0005\u0006,她就不会将他们的关系公之于众\u0007\u0005\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\u0005\b\u0007,双方在讨价还价后\b\u0005\b\b,张某决定给孙某10万元了事\b\b\b\u0005。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007\u0005,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\u0005\u0005\b、张某和何某\u0005\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", - "decoded_text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0006\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0006\u0007\u0007\u0006。几天后\u0006\b\u0007\b,孙某找到了宋某\b\b\u0007,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006,只要他给30万“封口费”\u0006\u0006,她就不会将他们的关系公之于众\u0007\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\b\u0007,双方在讨价还价后\b\b\b,张某决定给孙某10万元了事\b\b\b。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\b、张某和何某\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", - "diff": [ - "delete text[27:28] --> decoded_text[27:27] '\\x05' --> ''", - "delete text[52:53] --> decoded_text[51:51] '\\x05' --> ''", - "replace text[106:109] --> decoded_text[104:105] '\\x05\\x06\\x05' --> '\\x06'", - "delete text[134:135] --> decoded_text[130:130] '\\x05' --> ''", - "delete text[162:163] --> decoded_text[157:157] '\\x05' --> ''", - "delete text[172:173] --> decoded_text[166:166] '\\x05' --> ''", - "delete text[187:188] --> decoded_text[180:180] '\\x05' --> ''", - "delete text[213:214] --> decoded_text[205:205] '\\x05' --> ''", - "replace text[227:231] --> decoded_text[218:219] '\\x05\\x05\\x06\\x05' --> '\\x06'", - "delete text[248:249] --> decoded_text[236:236] '\\x05' --> ''", - "delete text[276:277] --> decoded_text[263:263] '\\x05' --> ''", - "delete text[289:290] --> decoded_text[275:275] '\\x05' --> ''", - "delete text[309:310] --> decoded_text[294:294] '\\x05' --> ''", - "delete text[345:346] --> decoded_text[329:329] '\\x05' --> ''", - "delete text[371:373] --> decoded_text[354:354] '\\x05\\x05' --> ''", - "delete text[380:381] --> decoded_text[361:361] '\\x05' --> ''" - ], - "n_oov_chars": 20, - "oov_ratio": 0.04866180048661801, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "拿到终审判决\u0007\b\u0006\u0005\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\u0005\b\u0006\u0005,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b\u0005。", - "decoded_text": "拿到终审判决\u0007\b\u0006\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\b\u0006,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b。", - "diff": [ - "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", - "delete text[28:29] --> decoded_text[27:27] '\\x05' --> ''", - "delete text[31:32] --> decoded_text[29:29] '\\x05' --> ''", - "delete text[90:91] --> decoded_text[87:87] '\\x05' --> ''" - ], - "n_oov_chars": 4, - "oov_ratio": 0.043478260869565216, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "本报讯为达到长期霸占弟媳的目的\u0005\u0005\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0005\u0006\u0005。日前\u0005\u0006\u0006\u0007\u0005,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\u0005\u0005\b\u0006\u0005,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", - "decoded_text": "本报讯为达到长期霸占弟媳的目的\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0006。日前\u0006\u0006\u0007,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\b\u0006,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", - "diff": [ - "delete text[15:17] --> decoded_text[15:15] '\\x05\\x05' --> ''", - "delete text[37:38] --> decoded_text[35:35] '\\x05' --> ''", - "delete text[39:40] --> decoded_text[36:36] '\\x05' --> ''", - "delete text[43:44] --> decoded_text[39:39] '\\x05' --> ''", - "delete text[47:48] --> decoded_text[42:42] '\\x05' --> ''", - "delete text[76:78] --> decoded_text[70:70] '\\x05\\x05' --> ''", - "delete text[80:81] --> decoded_text[72:72] '\\x05' --> ''" - ], - "n_oov_chars": 9, - "oov_ratio": 0.09375, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0005\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0005\u0006\u0005\u0006\u0005,女主角是我不认识的陌生女人\u0006\u0005。", - "decoded_text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0006\u0006,女主角是我不认识的陌生女人\u0006。", - "diff": [ - "delete text[29:30] --> decoded_text[29:29] '\\x05' --> ''", - "delete text[66:67] --> decoded_text[65:65] '\\x05' --> ''", - "delete text[68:69] --> decoded_text[66:66] '\\x05' --> ''", - "delete text[70:71] --> decoded_text[67:67] '\\x05' --> ''", - "delete text[86:87] --> decoded_text[82:82] '\\x05' --> ''" - ], - "n_oov_chars": 5, - "oov_ratio": 0.056818181818181816, - "oov_charset": "[\"\\u0005\"]" - }, - { - "text": "我和男友是一见钟情\u0005\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0005\u0007。我认识他是在学校的健身房\b\b\u0005\u0005,我扭伤了脚\u0006\b\u0006\u0005,他来帮忙\b\u0007\b\u0005\b。下午四点钟的阳光从窗户射进来时\b\u0005\u0007\u0005,他身上闪烁的光芒让我着迷\u0005\u0005\b\u0005。就这样\u0005\b\b\u0007\u0005,我无可救药地爱上了他\u0005\u0005\b\u0007。", - "decoded_text": "我和男友是一见钟情\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0007。我认识他是在学校的健身房\b\b,我扭伤了脚\u0006\b\u0006,他来帮忙\b\u0007\b\b。下午四点钟的阳光从窗户射进来时\b\u0007,他身上闪烁的光芒让我着迷\b。就这样\b\b\u0007,我无可救药地爱上了他\b\u0007。", - "diff": [ - "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", - "delete text[30:31] --> decoded_text[29:29] '\\x05' --> ''", - "delete text[47:49] --> decoded_text[45:45] '\\x05\\x05' --> ''", - "delete text[58:59] --> decoded_text[54:54] '\\x05' --> ''", - "delete text[67:68] --> decoded_text[62:62] '\\x05' --> ''", - "delete text[86:87] --> decoded_text[80:80] '\\x05' --> ''", - "delete text[88:89] --> decoded_text[81:81] '\\x05' --> ''", - "delete text[102:104] --> decoded_text[94:94] '\\x05\\x05' --> ''", - "delete text[105:106] --> decoded_text[95:95] '\\x05' --> ''", - "delete text[110:111] --> decoded_text[99:99] '\\x05' --> ''", - "delete text[114:115] --> decoded_text[102:102] '\\x05' --> ''", - "delete text[126:128] --> decoded_text[113:113] '\\x05\\x05' --> ''" - ], - "n_oov_chars": 15, - "oov_ratio": 0.11450381679389313, - "oov_charset": "[\"\\u0005\"]" - } +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0005\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006\u0005。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0005\u0006\u0005\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0005\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0005\u0006\u0007\u0007\u0006。几天后\u0006\u0005\b\u0007\b,孙某找到了宋某\b\b\u0007\u0005,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006\u0005,只要他给30万“封口费”\u0005\u0005\u0006\u0005\u0006,她就不会将他们的关系公之于众\u0007\u0005\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\u0005\b\u0007,双方在讨价还价后\b\u0005\b\b,张某决定给孙某10万元了事\b\b\b\u0005。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007\u0005,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\u0005\u0005\b、张某和何某\u0005\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "decoded_text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0006\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0006\u0007\u0007\u0006。几天后\u0006\b\u0007\b,孙某找到了宋某\b\b\u0007,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006,只要他给30万“封口费”\u0006\u0006,她就不会将他们的关系公之于众\u0007\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\b\u0007,双方在讨价还价后\b\b\b,张某决定给孙某10万元了事\b\b\b。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\b、张某和何某\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[52:53] --> decoded_text[51:51] '\\x05' --> ''", + "replace text[106:109] --> decoded_text[104:105] '\\x05\\x06\\x05' --> '\\x06'", + "delete text[134:135] --> decoded_text[130:130] '\\x05' --> ''", + "delete text[162:163] --> decoded_text[157:157] '\\x05' --> ''", + "delete text[172:173] --> decoded_text[166:166] '\\x05' --> ''", + "delete text[187:188] --> decoded_text[180:180] '\\x05' --> ''", + "delete text[213:214] --> decoded_text[205:205] '\\x05' --> ''", + "replace text[227:231] --> decoded_text[218:219] '\\x05\\x05\\x06\\x05' --> '\\x06'", + "delete text[248:249] --> decoded_text[236:236] '\\x05' --> ''", + "delete text[276:277] --> decoded_text[263:263] '\\x05' --> ''", + "delete text[289:290] --> decoded_text[275:275] '\\x05' --> ''", + "delete text[309:310] --> decoded_text[294:294] '\\x05' --> ''", + "delete text[345:346] --> decoded_text[329:329] '\\x05' --> ''", + "delete text[371:373] --> decoded_text[354:354] '\\x05\\x05' --> ''", + "delete text[380:381] --> decoded_text[361:361] '\\x05' --> ''" + ], + "n_oov_chars": 20, + "oov_ratio": 0.04866180048661801, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "拿到终审判决\u0007\b\u0006\u0005\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\u0005\b\u0006\u0005,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b\u0005。", + "decoded_text": "拿到终审判决\u0007\b\u0006\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\b\u0006,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[28:29] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[31:32] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[90:91] --> decoded_text[87:87] '\\x05' --> ''" + ], + "n_oov_chars": 4, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "本报讯为达到长期霸占弟媳的目的\u0005\u0005\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0005\u0006\u0005。日前\u0005\u0006\u0006\u0007\u0005,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\u0005\u0005\b\u0006\u0005,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "decoded_text": "本报讯为达到长期霸占弟媳的目的\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0006。日前\u0006\u0006\u0007,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\b\u0006,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "diff": [ + "delete text[15:17] --> decoded_text[15:15] '\\x05\\x05' --> ''", + "delete text[37:38] --> decoded_text[35:35] '\\x05' --> ''", + "delete text[39:40] --> decoded_text[36:36] '\\x05' --> ''", + "delete text[43:44] --> decoded_text[39:39] '\\x05' --> ''", + "delete text[47:48] --> decoded_text[42:42] '\\x05' --> ''", + "delete text[76:78] --> decoded_text[70:70] '\\x05\\x05' --> ''", + "delete text[80:81] --> decoded_text[72:72] '\\x05' --> ''" + ], + "n_oov_chars": 9, + "oov_ratio": 0.09375, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0005\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0005\u0006\u0005\u0006\u0005,女主角是我不认识的陌生女人\u0006\u0005。", + "decoded_text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0006\u0006,女主角是我不认识的陌生女人\u0006。", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[66:67] --> decoded_text[65:65] '\\x05' --> ''", + "delete text[68:69] --> decoded_text[66:66] '\\x05' --> ''", + "delete text[70:71] --> decoded_text[67:67] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[82:82] '\\x05' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.056818181818181816, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "我和男友是一见钟情\u0005\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0005\u0007。我认识他是在学校的健身房\b\b\u0005\u0005,我扭伤了脚\u0006\b\u0006\u0005,他来帮忙\b\u0007\b\u0005\b。下午四点钟的阳光从窗户射进来时\b\u0005\u0007\u0005,他身上闪烁的光芒让我着迷\u0005\u0005\b\u0005。就这样\u0005\b\b\u0007\u0005,我无可救药地爱上了他\u0005\u0005\b\u0007。", + "decoded_text": "我和男友是一见钟情\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0007。我认识他是在学校的健身房\b\b,我扭伤了脚\u0006\b\u0006,他来帮忙\b\u0007\b\b。下午四点钟的阳光从窗户射进来时\b\u0007,他身上闪烁的光芒让我着迷\b。就这样\b\b\u0007,我无可救药地爱上了他\b\u0007。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[30:31] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[47:49] --> decoded_text[45:45] '\\x05\\x05' --> ''", + "delete text[58:59] --> decoded_text[54:54] '\\x05' --> ''", + "delete text[67:68] --> decoded_text[62:62] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[80:80] '\\x05' --> ''", + "delete text[88:89] --> decoded_text[81:81] '\\x05' --> ''", + "delete text[102:104] --> decoded_text[94:94] '\\x05\\x05' --> ''", + "delete text[105:106] --> decoded_text[95:95] '\\x05' --> ''", + "delete text[110:111] --> decoded_text[99:99] '\\x05' --> ''", + "delete text[114:115] --> decoded_text[102:102] '\\x05' --> ''", + "delete text[126:128] --> decoded_text[113:113] '\\x05\\x05' --> ''" + ], + "n_oov_chars": 15, + "oov_ratio": 0.11450381679389313, + "oov_charset": "[\"\\u0005\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json index f565638f8c0845574515d3885c439fbd810a68ee..c838e8fd3b831f4d948aa7c67836a0dda8e82e53 100644 --- a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json @@ -1,157 +1,157 @@ -[ - { - "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", - "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby ’ s International Realty Canada.", - "diff": [ - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[70:70] --> decoded_text[71:72] '' --> ' '", - "insert text[140:140] --> decoded_text[142:143] '' --> ' '", - "insert text[200:200] --> decoded_text[203:204] '' --> ' '", - "insert text[201:201] --> decoded_text[205:206] '' --> ' '", - "insert text[229:229] --> decoded_text[234:235] '' --> ' '", - "insert text[230:230] --> decoded_text[236:237] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", - "decoded_text": "“ Within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby ’ s tells BuzzBuzzNews.", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[20:20] --> decoded_text[22:23] '' --> ' '", - "insert text[53:53] --> decoded_text[56:57] '' --> ' '", - "insert text[66:66] --> decoded_text[70:71] '' --> ' '", - "insert text[79:79] --> decoded_text[84:85] '' --> ' '", - "insert text[181:181] --> decoded_text[187:188] '' --> ' '", - "insert text[182:182] --> decoded_text[189:190] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", - "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", - "diff": [ - "insert text[9:9] --> decoded_text[9:10] '' --> ' '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "insert text[173:173] --> decoded_text[175:176] '' --> ' '", - "insert text[174:174] --> decoded_text[177:178] '' --> ' '", - "insert text[339:339] --> decoded_text[343:344] '' --> ' '", - "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", - "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", - "insert text[381:381] --> decoded_text[390:391] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", - "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", - "diff": [ - "insert text[40:40] --> decoded_text[40:41] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[128:128] --> decoded_text[130:131] '' --> ' '", - "insert text[166:166] --> decoded_text[169:170] '' --> ' '", - "insert text[167:167] --> decoded_text[171:172] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", - "decoded_text": "“ We just went to the market yesterday, it ’ s private through Sotheby ’ s and we ’ ve already started to get calls,” says Frosch.", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[41:41] --> decoded_text[42:43] '' --> ' '", - "insert text[42:42] --> decoded_text[44:45] '' --> ' '", - "insert text[67:67] --> decoded_text[70:71] '' --> ' '", - "insert text[68:68] --> decoded_text[72:73] '' --> ' '", - "insert text[76:76] --> decoded_text[81:82] '' --> ' '", - "insert text[77:77] --> decoded_text[83:84] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", - "decoded_text": "Stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts (“ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", - "diff": [ - "insert text[18:18] --> decoded_text[18:19] '' --> ' '", - "insert text[19:19] --> decoded_text[20:21] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '", - "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", - "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", - "insert text[140:140] --> decoded_text[147:148] '' --> ' '", - "insert text[144:144] --> decoded_text[152:153] '' --> ' '", - "insert text[145:145] --> decoded_text[154:155] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", - "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", - "diff": [ - "insert text[79:79] --> decoded_text[79:80] '' --> ' '", - "insert text[101:101] --> decoded_text[102:103] '' --> ' '", - "insert text[205:205] --> decoded_text[207:208] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", - "decoded_text": "Unjury ( 20 grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", - "diff": [ - "insert text[8:8] --> decoded_text[8:9] '' --> ' '", - "insert text[10:10] --> decoded_text[11:12] '' --> ' '", - "insert text[50:50] --> decoded_text[52:53] '' --> ' '", - "insert text[64:64] --> decoded_text[67:68] '' --> ' '", - "insert text[95:95] --> decoded_text[99:100] '' --> ' '", - "insert text[102:102] --> decoded_text[107:108] '' --> ' '", - "insert text[112:112] --> decoded_text[118:119] '' --> ' '", - "insert text[113:113] --> decoded_text[120:121] '' --> ' '", - "insert text[116:116] --> decoded_text[124:125] '' --> ' '", - "insert text[117:117] --> decoded_text[126:127] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", - "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", - "diff": [ - "insert text[22:22] --> decoded_text[22:23] '' --> ' '", - "insert text[116:116] --> decoded_text[117:118] '' --> ' '", - "insert text[121:121] --> decoded_text[123:124] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", - "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", - "diff": [ - "insert text[37:37] --> decoded_text[37:38] '' --> ' '", - "insert text[38:38] --> decoded_text[39:40] '' --> ' '", - "insert text[39:39] --> decoded_text[41:42] '' --> ' '", - "insert text[42:42] --> decoded_text[45:46] '' --> ' '", - "insert text[72:72] --> decoded_text[76:77] '' --> ' '", - "insert text[107:107] --> decoded_text[112:113] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby ’ s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "insert text[229:229] --> decoded_text[234:235] '' --> ' '", + "insert text[230:230] --> decoded_text[236:237] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ Within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby ’ s tells BuzzBuzzNews.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[181:181] --> decoded_text[187:188] '' --> ' '", + "insert text[182:182] --> decoded_text[189:190] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ We just went to the market yesterday, it ’ s private through Sotheby ’ s and we ’ ve already started to get calls,” says Frosch.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts (“ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "insert text[140:140] --> decoded_text[147:148] '' --> ' '", + "insert text[144:144] --> decoded_text[152:153] '' --> ' '", + "insert text[145:145] --> decoded_text[154:155] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20 grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[50:50] --> decoded_text[52:53] '' --> ' '", + "insert text[64:64] --> decoded_text[67:68] '' --> ' '", + "insert text[95:95] --> decoded_text[99:100] '' --> ' '", + "insert text[102:102] --> decoded_text[107:108] '' --> ' '", + "insert text[112:112] --> decoded_text[118:119] '' --> ' '", + "insert text[113:113] --> decoded_text[120:121] '' --> ' '", + "insert text[116:116] --> decoded_text[124:125] '' --> ' '", + "insert text[117:117] --> decoded_text[126:127] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json index 7909ea274af5df3ea3e3582cdbaad98c269ddd16..e62ed891d1088f0cab4b8183d21fc89611372f66 100644 --- a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json @@ -1,109 +1,109 @@ -[ - { - "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[103:103] --> decoded_text[104:105] '' --> ' '", - "insert text[135:135] --> decoded_text[137:138] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '", - "insert text[35:35] --> decoded_text[36:37] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", - "decoded_text": "– Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", - "diff": [ - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", - "decoded_text": "– Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", - "diff": [ - "insert text[15:15] --> decoded_text[15:16] '' --> ' '", - "insert text[16:16] --> decoded_text[17:18] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", - "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", - "diff": [ - "insert text[62:62] --> decoded_text[62:63] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "El segundo párrafo de este número ha sido incorporado por:", - "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", - "diff": [ - "insert text[57:57] --> decoded_text[57:58] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", - "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", - "diff": [ - "insert text[3:3] --> decoded_text[3:4] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "a la Empresa el 50% del periodo restante en la fecha señalada", - "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", - "diff": [ - "insert text[18:18] --> decoded_text[18:19] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - }, - { - "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", - "decoded_text": "Os deseamos muchos más [UNK] en un futuro y los mejores augurios para los años que están por venir.", - "diff": [ - "replace text[23:29] --> decoded_text[23:28] 'éxitos' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.01, - "oov_charset": "[\"é\"]" - }, - { - "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", - "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", - "diff": [ - "insert text[33:33] --> decoded_text[33:34] '' --> ' '", - "insert text[34:34] --> decoded_text[35:36] '' --> ' '", - "insert text[57:57] --> decoded_text[59:60] '' --> ' '" - ], - "n_oov_chars": 0, - "oov_ratio": 0.0, - "oov_charset": "[]" - } +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", + "diff": [ + "insert text[62:62] --> decoded_text[62:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", + "diff": [ + "insert text[57:57] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", + "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", + "decoded_text": "Os deseamos muchos más [UNK] en un futuro y los mejores augurios para los años que están por venir.", + "diff": [ + "replace text[23:29] --> decoded_text[23:28] 'éxitos' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"é\"]" + }, + { + "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", + "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[34:34] --> decoded_text[35:36] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json index fe1e7a01ba1f5938e538505924b1b18ee0ad62db..ebe43c1844c8bca6cc62d1ec5b3443862dd7d938 100644 --- a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json @@ -1,118 +1,118 @@ -[ - { - "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", - "decoded_text": "Bon, comme je ne suis pas le seul [UNK] avoir envisagé de créer ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", - "diff": [ - "replace text[34:35] --> decoded_text[34:39] 'à' --> '[UNK]'", - "replace text[91:96] --> decoded_text[95:100] 'était' --> '[UNK]'", - "replace text[102:106] --> decoded_text[106:111] 'être' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.015503875968992248, - "oov_charset": "[\"à\", \"ê\"]" - }, - { - "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", - "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la soirée?\" le matin, il y a de fortes chances que j'oublie", - "diff": [ - "insert text[159:159] --> decoded_text[159:160] '' --> ' '", - "replace text[176:178] --> decoded_text[177:182] 'ça' --> '[UNK]'", - "delete text[193:194] --> decoded_text[197:197] ' ' --> ''" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004098360655737705, - "oov_charset": "[\"ç\"]" - }, - { - "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", - "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", - "diff": [ - "replace text[224:225] --> decoded_text[224:229] 'à' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.004273504273504274, - "oov_charset": "[\"à\"]" - }, - { - "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", - "decoded_text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit [UNK] la création du monde.", - "diff": [ - "replace text[63:64] --> decoded_text[63:68] 'à' --> '[UNK]'", - "replace text[169:170] --> decoded_text[173:178] 'à' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.010416666666666666, - "oov_charset": "[\"à\"]" - }, - { - "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance [UNK] preférer ceux que je connais par Internet ou ailleurs qu'au lycée", - "diff": [ - "insert text[58:58] --> decoded_text[58:59] '' --> ' '", - "insert text[62:62] --> decoded_text[63:64] '' --> ' '", - "replace text[90:91] --> decoded_text[92:97] 'à' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006369426751592357, - "oov_charset": "[\"à\"]" - }, - { - "text": "- Je dois être mentalement instable, par moments", - "decoded_text": "- Je dois [UNK] mentalement instable, par moments", - "diff": [ - "replace text[10:14] --> decoded_text[10:15] 'être' --> '[UNK]'" - ], - "n_oov_chars": 1, - "oov_ratio": 0.020833333333333332, - "oov_charset": "[\"ê\"]" - }, - { - "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "decoded_text": "- J'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", - "diff": [ - "replace text[16:17] --> decoded_text[16:21] 'à' --> '[UNK]'", - "insert text[43:43] --> decoded_text[47:48] '' --> ' '", - "insert text[50:50] --> decoded_text[55:56] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.006711409395973154, - "oov_charset": "[\"à\"]" - }, - { - "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", - "decoded_text": "A la fin, on essayera de trouver des points communs [UNK] tous et de tout \" remettre au propre \"", - "diff": [ - "replace text[52:53] --> decoded_text[52:57] 'à' --> '[UNK]'", - "insert text[71:71] --> decoded_text[75:76] '' --> ' '", - "insert text[89:89] --> decoded_text[94:95] '' --> ' '" - ], - "n_oov_chars": 1, - "oov_ratio": 0.011111111111111112, - "oov_charset": "[\"à\"]" - }, - { - "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", - "decoded_text": "- j'ai moi aussi beaucoup de mémoire [UNK] ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en [UNK] temps très [UNK]", - "diff": [ - "replace text[37:38] --> decoded_text[37:42] 'à' --> '[UNK]'", - "replace text[163:167] --> decoded_text[167:172] 'même' --> '[UNK]'", - "replace text[179:187] --> decoded_text[184:189] 'étourdie' --> '[UNK]'" - ], - "n_oov_chars": 2, - "oov_ratio": 0.0106951871657754, - "oov_charset": "[\"à\", \"ê\"]" - }, - { - "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", - "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, [UNK] le prof a [UNK] me garder une heure en plus pour m'expliquer des démonstrations )", - "diff": [ - "insert text[64:64] --> decoded_text[64:65] '' --> ' '", - "replace text[150:152] --> decoded_text[151:156] 'où' --> '[UNK]'", - "replace text[163:165] --> decoded_text[167:172] 'dû' --> '[UNK]'", - "insert text[229:229] --> decoded_text[236:237] '' --> ' '" - ], - "n_oov_chars": 2, - "oov_ratio": 0.008695652173913044, - "oov_charset": "[\"ù\", \"û\"]" - } +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul [UNK] avoir envisagé de créer ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", + "diff": [ + "replace text[34:35] --> decoded_text[34:39] 'à' --> '[UNK]'", + "replace text[91:96] --> decoded_text[95:100] 'était' --> '[UNK]'", + "replace text[102:106] --> decoded_text[106:111] 'être' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.015503875968992248, + "oov_charset": "[\"à\", \"ê\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:178] --> decoded_text[177:182] 'ça' --> '[UNK]'", + "delete text[193:194] --> decoded_text[197:197] ' ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004098360655737705, + "oov_charset": "[\"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", + "diff": [ + "replace text[224:225] --> decoded_text[224:229] 'à' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004273504273504274, + "oov_charset": "[\"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit [UNK] la création du monde.", + "diff": [ + "replace text[63:64] --> decoded_text[63:68] 'à' --> '[UNK]'", + "replace text[169:170] --> decoded_text[173:178] 'à' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010416666666666666, + "oov_charset": "[\"à\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance [UNK] preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[90:91] --> decoded_text[92:97] 'à' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006369426751592357, + "oov_charset": "[\"à\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois [UNK] mentalement instable, par moments", + "diff": [ + "replace text[10:14] --> decoded_text[10:15] 'être' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'à' --> '[UNK]'", + "insert text[43:43] --> decoded_text[47:48] '' --> ' '", + "insert text[50:50] --> decoded_text[55:56] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006711409395973154, + "oov_charset": "[\"à\"]" + }, + { + "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", + "decoded_text": "A la fin, on essayera de trouver des points communs [UNK] tous et de tout \" remettre au propre \"", + "diff": [ + "replace text[52:53] --> decoded_text[52:57] 'à' --> '[UNK]'", + "insert text[71:71] --> decoded_text[75:76] '' --> ' '", + "insert text[89:89] --> decoded_text[94:95] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011111111111111112, + "oov_charset": "[\"à\"]" + }, + { + "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", + "decoded_text": "- j'ai moi aussi beaucoup de mémoire [UNK] ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en [UNK] temps très [UNK]", + "diff": [ + "replace text[37:38] --> decoded_text[37:42] 'à' --> '[UNK]'", + "replace text[163:167] --> decoded_text[167:172] 'même' --> '[UNK]'", + "replace text[179:187] --> decoded_text[184:189] 'étourdie' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0106951871657754, + "oov_charset": "[\"à\", \"ê\"]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, [UNK] le prof a [UNK] me garder une heure en plus pour m'expliquer des démonstrations )", + "diff": [ + "insert text[64:64] --> decoded_text[64:65] '' --> ' '", + "replace text[150:152] --> decoded_text[151:156] 'où' --> '[UNK]'", + "replace text[163:165] --> decoded_text[167:172] 'dû' --> '[UNK]'", + "insert text[229:229] --> decoded_text[236:237] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"ù\", \"û\"]" + } ] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json index 23f4316633c18b8826aaff3df4764f8c5a9c4b87..b517db80a90c7d745c13235b450f9603edab13ae 100644 --- a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json @@ -1,537 +1,537 @@ -[ - { - "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", - "decoded_text": "[UNK] [UNK] [UNK] [UNK] 牌 [UNK] ( www. suzastampin. com ) [UNK] ・ 斯利 [UNK] 2012 年 加入 塔 塔 [UNK] 公司 担任 [UNK] 理 一 [UNK], [UNK] [UNK] 公司 在 印度 及国 [UNK] [UNK] 除 捷 豹 和 路 虎 以外 的 [UNK] 。 [UNK] 斯坦 福 大学 的 [UNK] 生, 曾任 通用 [UNK] 在 中国 合 [UNK] 公司 的 。 近日, [UNK] [UNK] [UNK] 到 山西 [UNK] 北京 [UNK] [UNK] 4 S 店 得知, 店内 朗 [UNK] 型 有 [UNK] 供 [UNK], [UNK] 段 [UNK] 可 享受 最高 6000 元 [UNK] 幅 度, 具体 的 [UNK] 和 [UNK] 情 [UNK] [UNK] 表, 同 [UNK] [UNK] 的 朋友 [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] :", - "diff": [ - "replace text[0:7] --> decoded_text[0:24] '卍招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] '", - "replace text[8:9] --> decoded_text[25:32] '卍' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[33:34] '' --> ' '", - "insert text[14:14] --> decoded_text[38:39] '' --> ' '", - "insert text[26:26] --> decoded_text[51:52] '' --> ' '", - "insert text[29:29] --> decoded_text[55:56] '' --> ' '", - "replace text[30:32] --> decoded_text[57:64] '卡尔' --> ' [UNK] '", - "insert text[33:33] --> decoded_text[65:66] '' --> ' '", - "replace text[35:37] --> decoded_text[68:75] '姆于' --> ' [UNK] '", - "insert text[41:41] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[81:82] '' --> ' '", - "insert text[44:44] --> decoded_text[84:85] '' --> ' '", - "insert text[45:45] --> decoded_text[86:87] '' --> ' '", - "replace text[46:48] --> decoded_text[88:95] '汽车' --> ' [UNK] '", - "insert text[50:50] --> decoded_text[97:98] '' --> ' '", - "replace text[52:54] --> decoded_text[100:107] '总经' --> ' [UNK] '", - "insert text[55:55] --> decoded_text[108:109] '' --> ' '", - "replace text[56:61] --> decoded_text[110:130] '职,并负责' --> ' [UNK], [UNK] [UNK] '", - "insert text[63:63] --> decoded_text[132:133] '' --> ' '", - "insert text[64:64] --> decoded_text[134:135] '' --> ' '", - "insert text[66:66] --> decoded_text[137:138] '' --> ' '", - "replace text[68:72] --> decoded_text[140:153] '际市场上' --> ' [UNK] [UNK] '", - "insert text[73:73] --> decoded_text[154:155] '' --> ' '", - "insert text[74:74] --> decoded_text[156:157] '' --> ' '", - "insert text[75:75] --> decoded_text[158:159] '' --> ' '", - "insert text[76:76] --> decoded_text[160:161] '' --> ' '", - "insert text[77:77] --> decoded_text[162:163] '' --> ' '", - "insert text[78:78] --> decoded_text[164:165] '' --> ' '", - "insert text[80:80] --> decoded_text[167:168] '' --> ' '", - "replace text[81:83] --> decoded_text[169:176] '业务' --> ' [UNK] '", - "replace text[84:86] --> decoded_text[177:184] '这位' --> ' [UNK] '", - "insert text[88:88] --> decoded_text[186:187] '' --> ' '", - "insert text[89:89] --> decoded_text[188:189] '' --> ' '", - "insert text[91:91] --> decoded_text[191:192] '' --> ' '", - "replace text[92:94] --> decoded_text[193:200] '毕业' --> ' [UNK] '", - "replace text[95:96] --> decoded_text[201:203] ',' --> ', '", - "insert text[98:98] --> decoded_text[205:206] '' --> ' '", - "replace text[100:102] --> decoded_text[208:215] '汽车' --> ' [UNK] '", - "insert text[103:103] --> decoded_text[216:217] '' --> ' '", - "insert text[105:105] --> decoded_text[219:220] '' --> ' '", - "replace text[106:107] --> decoded_text[221:228] '资' --> ' [UNK] '", - "insert text[109:109] --> decoded_text[230:231] '' --> ' '", - "insert text[110:110] --> decoded_text[232:233] '' --> ' '", - "insert text[111:111] --> decoded_text[234:235] '' --> ' '", - "replace text[113:120] --> decoded_text[237:257] ',编辑专门联系' --> ', [UNK] [UNK] [UNK] '", - "insert text[121:121] --> decoded_text[258:259] '' --> ' '", - "replace text[123:125] --> decoded_text[261:268] '传奇' --> ' [UNK] '", - "replace text[127:131] --> decoded_text[270:283] '现代汽车' --> ' [UNK] [UNK] '", - "insert text[132:132] --> decoded_text[284:285] '' --> ' '", - "insert text[133:133] --> decoded_text[286:287] '' --> ' '", - "insert text[134:134] --> decoded_text[288:289] '' --> ' '", - "replace text[136:137] --> decoded_text[291:293] ',' --> ', '", - "insert text[139:139] --> decoded_text[295:296] '' --> ' '", - "replace text[140:142] --> decoded_text[297:304] '动车' --> ' [UNK] '", - "insert text[143:143] --> decoded_text[305:306] '' --> ' '", - "replace text[144:146] --> decoded_text[307:314] '现车' --> ' [UNK] '", - "replace text[147:151] --> decoded_text[315:329] '应,现阶' --> ' [UNK], [UNK] '", - "replace text[152:154] --> decoded_text[330:337] '购车' --> ' [UNK] '", - "insert text[155:155] --> decoded_text[338:339] '' --> ' '", - "insert text[157:157] --> decoded_text[341:342] '' --> ' '", - "insert text[159:159] --> decoded_text[344:345] '' --> ' '", - "insert text[163:163] --> decoded_text[349:350] '' --> ' '", - "replace text[164:166] --> decoded_text[351:358] '优惠' --> ' [UNK] '", - "insert text[167:167] --> decoded_text[359:360] '' --> ' '", - "replace text[168:169] --> decoded_text[361:363] ',' --> ', '", - "insert text[171:171] --> decoded_text[365:366] '' --> ' '", - "replace text[172:174] --> decoded_text[367:374] '车型' --> ' [UNK] '", - "replace text[175:177] --> decoded_text[375:382] '价格' --> ' [UNK] '", - "replace text[178:182] --> decoded_text[383:396] '况请见下' --> ' [UNK] [UNK] '", - "replace text[183:184] --> decoded_text[397:399] ',' --> ', '", - "replace text[185:189] --> decoded_text[400:413] '时感兴趣' --> ' [UNK] [UNK] '", - "insert text[190:190] --> decoded_text[414:415] '' --> ' '", - "replace text[192:196] --> decoded_text[417:430] '还可致电' --> ' [UNK] [UNK] '", - "replace text[206:207] --> decoded_text[440:447] '转' --> ' [UNK] '", - "replace text[211:214] --> decoded_text[451:459] '详询:' --> ' [UNK] :'" - ], - "n_oov_chars": 64, - "oov_ratio": 0.29906542056074764, - "oov_charset": "[\"卍\", \"财\", \"带\", \"什\", \"么\", \"卡\", \"尔\", \"姆\", \"车\", \"总\", \"经\", \"职\", \",\", \"并\", \"负\", \"责\", \"际\", \"场\", \"业\", \"务\", \"这\", \"毕\", \"资\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"传\", \"现\", \"动\", \"应\", \"阶\", \"购\", \"优\", \"惠\", \"价\", \"况\", \"请\", \"见\", \"时\", \"兴\", \"还\", \"电\", \"转\", \"详\", \"询\", \":\"]" - }, - { - "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", - "decoded_text": "[UNK] 《 幸福 [UNK] [UNK] 》 的 案 例 令 中国 [UNK] 彼 得 [UNK] 事 官 胡 [UNK] 印象 深刻 。 由 于行 前 未 能 [UNK] 核 [UNK] [UNK] [UNK], 一 [UNK] [UNK] [UNK] 旅 [UNK] 的中 国夫 [UNK] [UNK] [UNK] 期 差 点 被 困 在 [UNK] [UNK] 。 在 胡 [UNK] [UNK] 下, [UNK] 夫 [UNK] [UNK] [UNK] [UNK] 的 3 小 [UNK], [UNK] 在 [UNK] 起 [UNK] 5 分 [UNK], 登 上 返 程 的 航 班 。", - "diff": [ - "replace text[0:8] --> decoded_text[0:6] '一个类似美国大片' --> '[UNK] '", - "insert text[9:9] --> decoded_text[7:8] '' --> ' '", - "replace text[11:14] --> decoded_text[10:23] '终点站' --> ' [UNK] [UNK] '", - "insert text[15:15] --> decoded_text[24:25] '' --> ' '", - "insert text[16:16] --> decoded_text[26:27] '' --> ' '", - "insert text[17:17] --> decoded_text[28:29] '' --> ' '", - "insert text[18:18] --> decoded_text[30:31] '' --> ' '", - "insert text[19:19] --> decoded_text[32:33] '' --> ' '", - "replace text[21:23] --> decoded_text[35:42] '驻圣' --> ' [UNK] '", - "insert text[24:24] --> decoded_text[43:44] '' --> ' '", - "replace text[25:27] --> decoded_text[45:52] '堡领' --> ' [UNK] '", - "insert text[28:28] --> decoded_text[53:54] '' --> ' '", - "insert text[29:29] --> decoded_text[55:56] '' --> ' '", - "replace text[30:31] --> decoded_text[57:64] '滨' --> ' [UNK] '", - "insert text[33:33] --> decoded_text[66:67] '' --> ' '", - "insert text[35:35] --> decoded_text[69:70] '' --> ' '", - "insert text[36:36] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[73:74] '' --> ' '", - "insert text[39:39] --> decoded_text[76:77] '' --> ' '", - "insert text[40:40] --> decoded_text[78:79] '' --> ' '", - "insert text[41:41] --> decoded_text[80:81] '' --> ' '", - "replace text[42:44] --> decoded_text[82:89] '仔细' --> ' [UNK] '", - "replace text[45:52] --> decoded_text[90:110] '对签证有效期,' --> ' [UNK] [UNK] [UNK], '", - "replace text[53:58] --> decoded_text[111:130] '对赴俄罗斯' --> ' [UNK] [UNK] [UNK] '", - "replace text[59:60] --> decoded_text[131:138] '游' --> ' [UNK] '", - "insert text[62:62] --> decoded_text[140:141] '' --> ' '", - "replace text[64:70] --> decoded_text[143:162] '妇因为签证过' --> ' [UNK] [UNK] [UNK] '", - "insert text[71:71] --> decoded_text[163:164] '' --> ' '", - "insert text[72:72] --> decoded_text[165:166] '' --> ' '", - "insert text[73:73] --> decoded_text[167:168] '' --> ' '", - "insert text[74:74] --> decoded_text[169:170] '' --> ' '", - "insert text[75:75] --> decoded_text[171:172] '' --> ' '", - "replace text[76:79] --> decoded_text[173:186] '俄罗斯' --> ' [UNK] [UNK] '", - "insert text[80:80] --> decoded_text[187:188] '' --> ' '", - "insert text[81:81] --> decoded_text[189:190] '' --> ' '", - "replace text[82:83] --> decoded_text[191:239] '滨' --> ' [UNK] [UNK] 下, [UNK] 夫 [UNK] [UNK] [UNK] [UNK] '", - "replace text[84:99] --> decoded_text[240:293] '协助下,这对夫妇经历了惊心动魄' --> ' 3 小 [UNK], [UNK] 在 [UNK] 起 [UNK] 5 分 [UNK], 登 上 返 程 '", - "replace text[100:121] --> decoded_text[294:295] '3小时,终于在飞机起飞前5分钟,登上返程的' --> ' '", - "insert text[122:122] --> decoded_text[296:297] '' --> ' '", - "insert text[123:123] --> decoded_text[298:299] '' --> ' '" - ], - "n_oov_chars": 45, - "oov_ratio": 0.3629032258064516, - "oov_charset": "[\"个\", \"类\", \"终\", \"站\", \"驻\", \"圣\", \"领\", \"滨\", \"细\", \"对\", \"签\", \"证\", \"效\", \",\", \"俄\", \"罗\", \"游\", \"妇\", \"为\", \"过\", \"协\", \"这\", \"经\", \"历\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"5\", \"钟\"]" - }, - { - "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", - "decoded_text": "[UNK] [UNK] [UNK] 牌 [UNK] 江 在 致辞 中 表示, 中 法 建 [UNK] [UNK] 中 法 [UNK] [UNK] 国家 友好 [UNK] 的 新 [UNK], [UNK] 了 不 同 社会 制度 国家 和平 共 [UNK] 新 典 范, [UNK] [UNK] 略 格 局 [UNK] 了 重大 [UNK] [UNK] 影 [UNK] 。", - "diff": [ - "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", - "replace text[7:9] --> decoded_text[19:26] '张德' --> ' [UNK] '", - "insert text[10:10] --> decoded_text[27:28] '' --> ' '", - "insert text[11:11] --> decoded_text[29:30] '' --> ' '", - "insert text[13:13] --> decoded_text[32:33] '' --> ' '", - "insert text[14:14] --> decoded_text[34:35] '' --> ' '", - "replace text[16:17] --> decoded_text[37:39] ',' --> ', '", - "insert text[18:18] --> decoded_text[40:41] '' --> ' '", - "insert text[19:19] --> decoded_text[42:43] '' --> ' '", - "replace text[20:24] --> decoded_text[44:57] '交开启了' --> ' [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[58:59] '' --> ' '", - "replace text[26:30] --> decoded_text[60:73] '两个伟大' --> ' [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[75:76] '' --> ' '", - "replace text[34:36] --> decoded_text[78:85] '关系' --> ' [UNK] '", - "insert text[37:37] --> decoded_text[86:87] '' --> ' '", - "replace text[38:43] --> decoded_text[88:102] '纪元,树立' --> ' [UNK], [UNK] '", - "insert text[44:44] --> decoded_text[103:104] '' --> ' '", - "insert text[45:45] --> decoded_text[105:106] '' --> ' '", - "insert text[46:46] --> decoded_text[107:108] '' --> ' '", - "insert text[48:48] --> decoded_text[110:111] '' --> ' '", - "insert text[50:50] --> decoded_text[113:114] '' --> ' '", - "insert text[52:52] --> decoded_text[116:117] '' --> ' '", - "insert text[54:54] --> decoded_text[119:120] '' --> ' '", - "replace text[55:57] --> decoded_text[121:128] '处的' --> ' [UNK] '", - "insert text[58:58] --> decoded_text[129:130] '' --> ' '", - "insert text[59:59] --> decoded_text[131:132] '' --> ' '", - "replace text[60:65] --> decoded_text[133:147] ',对国际战' --> ', [UNK] [UNK] '", - "insert text[66:66] --> decoded_text[148:149] '' --> ' '", - "insert text[67:67] --> decoded_text[150:151] '' --> ' '", - "replace text[68:70] --> decoded_text[152:159] '产生' --> ' [UNK] '", - "insert text[71:71] --> decoded_text[160:161] '' --> ' '", - "replace text[73:77] --> decoded_text[163:176] '而深远的' --> ' [UNK] [UNK] '", - "replace text[78:79] --> decoded_text[177:184] '响' --> ' [UNK] '" - ], - "n_oov_chars": 25, - "oov_ratio": 0.3125, - "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"张\", \"德\", \",\", \"开\", \"启\", \"两\", \"个\", \"伟\", \"关\", \"纪\", \"树\", \"处\", \"对\", \"际\", \"战\", \"产\", \"而\", \"远\", \"响\"]" - }, - { - "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", - "decoded_text": "[UNK] [UNK] [UNK] 牌 科 斯格 [UNK] [UNK], 曾被 派 [UNK] 来 西 [UNK] 、 越 南 、 英国 、 印度 、 美国 工作 。 1999 年, 他 成 [UNK] 合 国 [UNK] 帝 [UNK] [UNK] 令, [UNK] [UNK] [UNK] 独立 国家 的 [UNK] 。", - "diff": [ - "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", - "insert text[7:7] --> decoded_text[19:20] '' --> ' '", - "insert text[8:8] --> decoded_text[21:22] '' --> ' '", - "replace text[10:20] --> decoded_text[24:38] '罗夫一直供职于军队,' --> ' [UNK] [UNK], '", - "insert text[22:22] --> decoded_text[40:41] '' --> ' '", - "replace text[23:25] --> decoded_text[42:49] '往马' --> ' [UNK] '", - "insert text[26:26] --> decoded_text[50:51] '' --> ' '", - "replace text[27:28] --> decoded_text[52:59] '亚' --> ' [UNK] '", - "insert text[29:29] --> decoded_text[60:61] '' --> ' '", - "insert text[30:30] --> decoded_text[62:63] '' --> ' '", - "insert text[31:31] --> decoded_text[64:65] '' --> ' '", - "insert text[32:32] --> decoded_text[66:67] '' --> ' '", - "insert text[34:34] --> decoded_text[69:70] '' --> ' '", - "insert text[35:35] --> decoded_text[71:72] '' --> ' '", - "insert text[37:37] --> decoded_text[74:75] '' --> ' '", - "insert text[38:38] --> decoded_text[76:77] '' --> ' '", - "insert text[40:40] --> decoded_text[79:80] '' --> ' '", - "insert text[42:42] --> decoded_text[82:83] '' --> ' '", - "insert text[43:43] --> decoded_text[84:85] '' --> ' '", - "insert text[47:47] --> decoded_text[89:90] '' --> ' '", - "replace text[48:49] --> decoded_text[91:93] ',' --> ', '", - "insert text[50:50] --> decoded_text[94:95] '' --> ' '", - "replace text[51:53] --> decoded_text[96:103] '为联' --> ' [UNK] '", - "insert text[54:54] --> decoded_text[104:105] '' --> ' '", - "replace text[55:57] --> decoded_text[106:113] '驻东' --> ' [UNK] '", - "replace text[58:62] --> decoded_text[114:127] '汶部队司' --> ' [UNK] [UNK] '", - "replace text[63:70] --> decoded_text[128:148] ',监督东帝汶向' --> ', [UNK] [UNK] [UNK] '", - "insert text[72:72] --> decoded_text[150:151] '' --> ' '", - "insert text[74:74] --> decoded_text[153:154] '' --> ' '", - "replace text[75:77] --> decoded_text[155:162] '过渡' --> ' [UNK] '" - ], - "n_oov_chars": 23, - "oov_ratio": 0.2948717948717949, - "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"罗\", \"职\", \"军\", \"队\", \",\", \"马\", \"亚\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"监\", \"过\"]" - }, - { - "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", - "decoded_text": "1 月 28 日 [UNK] 香港 《 明 [UNK] 》 消息, 在 [UNK] [UNK] 士 [UNK] 美国 音 [UNK] [UNK] 50 周年 的 [UNK] 日子, 格 [UNK] 向 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] 高 史 [UNK] ( RingoStarr ) [UNK] [UNK] 成就 [UNK], [UNK] [UNK] 意 [UNK] 。 [UNK] 隆重 其事, 大会 [UNK] 金 像 影 后 [UNK] [UNK] [UNK] [UNK] 茨 ( JuliaRoberts ) [UNK] 介 [UNK] 二 人出 [UNK], 保 [UNK] 拍 [UNK] 鼓 声 和 [UNK], 先 献唱 新 歌 《 QueenieEye 》, 然 后 [UNK] 后 者 [UNK] 旧作 《 Photograph 》, [UNK] 歌 迷重 温 昔日 的 美好 情 [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "insert text[4:4] --> decoded_text[6:7] '' --> ' '", - "replace text[5:7] --> decoded_text[8:15] '电据' --> ' [UNK] '", - "insert text[9:9] --> decoded_text[17:18] '' --> ' '", - "insert text[10:10] --> decoded_text[19:20] '' --> ' '", - "replace text[11:12] --> decoded_text[21:28] '报' --> ' [UNK] '", - "insert text[13:13] --> decoded_text[29:30] '' --> ' '", - "replace text[15:16] --> decoded_text[32:34] ',' --> ', '", - "replace text[17:21] --> decoded_text[35:48] '庆祝披头' --> ' [UNK] [UNK] '", - "replace text[22:24] --> decoded_text[49:56] '进军' --> ' [UNK] '", - "insert text[26:26] --> decoded_text[58:59] '' --> ' '", - "replace text[27:30] --> decoded_text[60:73] '乐市场' --> ' [UNK] [UNK] '", - "insert text[32:32] --> decoded_text[75:76] '' --> ' '", - "insert text[34:34] --> decoded_text[78:79] '' --> ' '", - "replace text[35:37] --> decoded_text[80:87] '纪念' --> ' [UNK] '", - "replace text[39:40] --> decoded_text[89:91] ',' --> ', '", - "replace text[41:43] --> decoded_text[92:99] '莱美' --> ' [UNK] '", - "replace text[44:48] --> decoded_text[100:113] '两名仅存' --> ' [UNK] [UNK] '", - "replace text[49:51] --> decoded_text[114:123] '员:' --> ' [UNK] : '", - "replace text[52:58] --> decoded_text[124:143] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] '", - "insert text[59:59] --> decoded_text[144:145] '' --> ' '", - "replace text[60:61] --> decoded_text[146:153] '达' --> ' [UNK] '", - "insert text[62:62] --> decoded_text[154:155] '' --> ' '", - "insert text[72:72] --> decoded_text[165:166] '' --> ' '", - "replace text[73:77] --> decoded_text[167:180] '颁发终身' --> ' [UNK] [UNK] '", - "replace text[79:85] --> decoded_text[182:202] '奖,显得别具' --> ' [UNK], [UNK] [UNK] '", - "replace text[86:87] --> decoded_text[203:210] '义' --> ' [UNK] '", - "replace text[88:90] --> decoded_text[211:218] '为了' --> ' [UNK] '", - "insert text[92:92] --> decoded_text[220:221] '' --> ' '", - "replace text[94:95] --> decoded_text[223:225] ',' --> ', '", - "replace text[97:99] --> decoded_text[227:234] '请来' --> ' [UNK] '", - "insert text[100:100] --> decoded_text[235:236] '' --> ' '", - "insert text[101:101] --> decoded_text[237:238] '' --> ' '", - "insert text[102:102] --> decoded_text[239:240] '' --> ' '", - "replace text[103:110] --> decoded_text[241:266] '茱莉亚••罗伯' --> ' [UNK] [UNK] [UNK] [UNK] '", - "insert text[111:111] --> decoded_text[267:268] '' --> ' '", - "insert text[112:112] --> decoded_text[269:270] '' --> ' '", - "insert text[124:124] --> decoded_text[282:283] '' --> ' '", - "replace text[125:127] --> decoded_text[284:291] '负责' --> ' [UNK] '", - "replace text[128:129] --> decoded_text[292:299] '绍' --> ' [UNK] '", - "insert text[130:130] --> decoded_text[300:301] '' --> ' '", - "replace text[132:134] --> decoded_text[303:311] '场,' --> ' [UNK], '", - "replace text[135:137] --> decoded_text[312:319] '罗在' --> ' [UNK] '", - "replace text[138:140] --> decoded_text[320:327] '档的' --> ' [UNK] '", - "insert text[141:141] --> decoded_text[328:329] '' --> ' '", - "insert text[142:142] --> decoded_text[330:331] '' --> ' '", - "replace text[143:146] --> decoded_text[332:340] '应下,' --> ' [UNK], '", - "insert text[147:147] --> decoded_text[341:342] '' --> ' '", - "insert text[149:149] --> decoded_text[344:345] '' --> ' '", - "insert text[150:150] --> decoded_text[346:347] '' --> ' '", - "insert text[151:151] --> decoded_text[348:349] '' --> ' '", - "insert text[152:152] --> decoded_text[350:351] '' --> ' '", - "insert text[162:162] --> decoded_text[361:362] '' --> ' '", - "replace text[163:164] --> decoded_text[363:365] ',' --> ', '", - "insert text[165:165] --> decoded_text[366:367] '' --> ' '", - "replace text[166:168] --> decoded_text[368:375] '轮到' --> ' [UNK] '", - "insert text[169:169] --> decoded_text[376:377] '' --> ' '", - "replace text[170:172] --> decoded_text[378:385] '演绎' --> ' [UNK] '", - "insert text[174:174] --> decoded_text[387:388] '' --> ' '", - "insert text[175:175] --> decoded_text[389:390] '' --> ' '", - "insert text[185:185] --> decoded_text[400:401] '' --> ' '", - "replace text[186:189] --> decoded_text[402:410] ',带领' --> ', [UNK] '", - "insert text[190:190] --> decoded_text[411:412] '' --> ' '", - "insert text[192:192] --> decoded_text[414:415] '' --> ' '", - "insert text[193:193] --> decoded_text[416:417] '' --> ' '", - "insert text[195:195] --> decoded_text[419:420] '' --> ' '", - "insert text[196:196] --> decoded_text[421:422] '' --> ' '", - "insert text[198:198] --> decoded_text[424:425] '' --> ' '", - "replace text[199:200] --> decoded_text[426:433] '怀' --> ' [UNK] '" - ], - "n_oov_chars": 53, - "oov_ratio": 0.263681592039801, - "oov_charset": "[\"电\", \"报\", \",\", \"庆\", \"披\", \"头\", \"进\", \"军\", \"乐\", \"场\", \"纪\", \"莱\", \"两\", \"仅\", \"员\", \":\", \"罗\", \"卡\", \"灵\", \"达\", \"颁\", \"发\", \"终\", \"奖\", \"显\", \"别\", \"义\", \"为\", \"请\", \"茱\", \"亚\", \"•\", \"负\", \"责\", \"绍\", \"档\", \"应\", \"轮\", \"绎\", \"带\", \"领\", \"怀\"]" - }, - { - "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", - "decoded_text": "佛 牌 [UNK] 里 有 [UNK] [UNK] 目的 地 后, [UNK] 全 程 的 [UNK] [UNK] 14 元, 但 司 机 到 [UNK] 21 元, 因 此, 司 机 [UNK] 者 7 元, 除去 之 前 支付 的 1 元, [UNK] [UNK] 6 元, [UNK] [UNK] 了 本 [UNK] 付 14 元 的 [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:10] '绳哪' --> ' [UNK] '", - "insert text[5:5] --> decoded_text[11:12] '' --> ' '", - "replace text[6:9] --> decoded_text[13:26] '卖到达' --> ' [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[28:29] '' --> ' '", - "insert text[12:12] --> decoded_text[30:31] '' --> ' '", - "replace text[13:16] --> decoded_text[32:40] ',记者' --> ', [UNK] '", - "insert text[17:17] --> decoded_text[41:42] '' --> ' '", - "insert text[18:18] --> decoded_text[43:44] '' --> ' '", - "replace text[19:23] --> decoded_text[45:58] '总车费是' --> ' [UNK] [UNK] '", - "insert text[25:25] --> decoded_text[60:61] '' --> ' '", - "replace text[26:27] --> decoded_text[62:64] ',' --> ', '", - "insert text[28:28] --> decoded_text[65:66] '' --> ' '", - "insert text[29:29] --> decoded_text[67:68] '' --> ' '", - "insert text[30:30] --> decoded_text[69:70] '' --> ' '", - "replace text[31:32] --> decoded_text[71:78] '账' --> ' [UNK] '", - "insert text[34:34] --> decoded_text[80:81] '' --> ' '", - "replace text[35:36] --> decoded_text[82:84] ',' --> ', '", - "insert text[37:37] --> decoded_text[85:86] '' --> ' '", - "replace text[38:39] --> decoded_text[87:89] ',' --> ', '", - "insert text[40:40] --> decoded_text[90:91] '' --> ' '", - "replace text[41:43] --> decoded_text[92:99] '给记' --> ' [UNK] '", - "insert text[44:44] --> decoded_text[100:101] '' --> ' '", - "insert text[45:45] --> decoded_text[102:103] '' --> ' '", - "replace text[46:47] --> decoded_text[104:106] ',' --> ', '", - "insert text[49:49] --> decoded_text[108:109] '' --> ' '", - "insert text[50:50] --> decoded_text[110:111] '' --> ' '", - "insert text[51:51] --> decoded_text[112:113] '' --> ' '", - "insert text[53:53] --> decoded_text[115:116] '' --> ' '", - "insert text[54:54] --> decoded_text[117:118] '' --> ' '", - "insert text[55:55] --> decoded_text[119:120] '' --> ' '", - "replace text[56:61] --> decoded_text[121:135] ',记者净赚' --> ', [UNK] [UNK] '", - "insert text[62:62] --> decoded_text[136:137] '' --> ' '", - "replace text[63:68] --> decoded_text[138:152] ',还免费乘' --> ', [UNK] [UNK] '", - "insert text[69:69] --> decoded_text[153:154] '' --> ' '", - "replace text[70:72] --> decoded_text[155:162] '应支' --> ' [UNK] '", - "insert text[73:73] --> decoded_text[163:164] '' --> ' '", - "insert text[75:75] --> decoded_text[166:167] '' --> ' '", - "insert text[76:76] --> decoded_text[168:169] '' --> ' '", - "replace text[77:78] --> decoded_text[170:177] '车' --> ' [UNK] '" - ], - "n_oov_chars": 26, - "oov_ratio": 0.3291139240506329, - "oov_charset": "[\"绳\", \"哪\", \"卖\", \"达\", \",\", \"记\", \"总\", \"车\", \"费\", \"账\", \"给\", \"净\", \"赚\", \"还\", \"乘\", \"应\"]" - }, - { - "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", - "decoded_text": "[UNK] ・ 斯利 [UNK] 2012 年 加入 塔 塔 [UNK] 公司 担任 [UNK] 理 一 [UNK], [UNK] [UNK] 公司 在 印度 及国 [UNK] [UNK] 除 捷 豹 和 路 虎 以外 的 [UNK] 。 [UNK] 斯坦 福 大学 的 [UNK] 生, 曾任 通用 [UNK] 在 中国 合 [UNK] 公司 的 副 [UNK], 上 汽 通用 [UNK] 。( 方 [UNK] )", - "diff": [ - "replace text[0:2] --> decoded_text[0:6] '卡尔' --> '[UNK] '", - "insert text[3:3] --> decoded_text[7:8] '' --> ' '", - "replace text[5:7] --> decoded_text[10:17] '姆于' --> ' [UNK] '", - "insert text[11:11] --> decoded_text[21:22] '' --> ' '", - "insert text[12:12] --> decoded_text[23:24] '' --> ' '", - "insert text[14:14] --> decoded_text[26:27] '' --> ' '", - "insert text[15:15] --> decoded_text[28:29] '' --> ' '", - "replace text[16:18] --> decoded_text[30:37] '汽车' --> ' [UNK] '", - "insert text[20:20] --> decoded_text[39:40] '' --> ' '", - "replace text[22:24] --> decoded_text[42:49] '总经' --> ' [UNK] '", - "insert text[25:25] --> decoded_text[50:51] '' --> ' '", - "replace text[26:31] --> decoded_text[52:72] '职,并负责' --> ' [UNK], [UNK] [UNK] '", - "insert text[33:33] --> decoded_text[74:75] '' --> ' '", - "insert text[34:34] --> decoded_text[76:77] '' --> ' '", - "insert text[36:36] --> decoded_text[79:80] '' --> ' '", - "replace text[38:42] --> decoded_text[82:95] '际市场上' --> ' [UNK] [UNK] '", - "insert text[43:43] --> decoded_text[96:97] '' --> ' '", - "insert text[44:44] --> decoded_text[98:99] '' --> ' '", - "insert text[45:45] --> decoded_text[100:101] '' --> ' '", - "insert text[46:46] --> decoded_text[102:103] '' --> ' '", - "insert text[47:47] --> decoded_text[104:105] '' --> ' '", - "insert text[48:48] --> decoded_text[106:107] '' --> ' '", - "insert text[50:50] --> decoded_text[109:110] '' --> ' '", - "replace text[51:53] --> decoded_text[111:118] '业务' --> ' [UNK] '", - "replace text[54:56] --> decoded_text[119:126] '这位' --> ' [UNK] '", - "insert text[58:58] --> decoded_text[128:129] '' --> ' '", - "insert text[59:59] --> decoded_text[130:131] '' --> ' '", - "insert text[61:61] --> decoded_text[133:134] '' --> ' '", - "replace text[62:64] --> decoded_text[135:142] '毕业' --> ' [UNK] '", - "replace text[65:66] --> decoded_text[143:145] ',' --> ', '", - "insert text[68:68] --> decoded_text[147:148] '' --> ' '", - "replace text[70:72] --> decoded_text[150:157] '汽车' --> ' [UNK] '", - "insert text[73:73] --> decoded_text[158:159] '' --> ' '", - "insert text[75:75] --> decoded_text[161:162] '' --> ' '", - "replace text[76:77] --> decoded_text[163:170] '资' --> ' [UNK] '", - "insert text[79:79] --> decoded_text[172:173] '' --> ' '", - "insert text[80:80] --> decoded_text[174:175] '' --> ' '", - "replace text[81:84] --> decoded_text[176:184] '总裁,' --> ' [UNK], '", - "insert text[85:85] --> decoded_text[185:186] '' --> ' '", - "insert text[86:86] --> decoded_text[187:188] '' --> ' '", - "replace text[88:109] --> decoded_text[190:197] '五菱公司的副总裁以及通用汽车印度公司的总裁' --> ' [UNK] '", - "insert text[111:111] --> decoded_text[199:200] '' --> ' '", - "replace text[112:114] --> decoded_text[201:208] '赵春' --> ' [UNK] '" - ], - "n_oov_chars": 27, - "oov_ratio": 0.23478260869565218, - "oov_charset": "[\"卡\", \"尔\", \"姆\", \"车\", \"总\", \"经\", \"职\", \",\", \"并\", \"负\", \"责\", \"际\", \"场\", \"业\", \"务\", \"这\", \"毕\", \"资\", \"赵\"]" - }, - { - "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", - "decoded_text": "大 腕 [UNK] 不可能 [UNK] 作品 都 是 [UNK] [UNK] [UNK], 如果 他 [UNK], [UNK] 他 [UNK] 。 他 也是 人, 不 是 神, 人 就有 自己 的 [UNK] 。 他 [UNK] [UNK] 春 [UNK], [UNK] [UNK] [UNK] :“ 老 [UNK], 我 [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] 2 号 位, [UNK] 要 走 1 号 位, [UNK] [UNK] [UNK] [UNK] 不 是?” [UNK] 是 [UNK] 。 但 因 [UNK] 非常 了解 他, 他 也不 一定 有 [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "replace text[2:4] --> decoded_text[3:10] '导演' --> ' [UNK] '", - "replace text[7:9] --> decoded_text[13:20] '每部' --> ' [UNK] '", - "insert text[11:11] --> decoded_text[22:23] '' --> ' '", - "replace text[12:20] --> decoded_text[24:46] '是你喜欢的东西,' --> ' 是 [UNK] [UNK] [UNK], '", - "replace text[22:27] --> decoded_text[48:82] '他一时控制' --> ' 他 [UNK], [UNK] 他 [UNK] 。 他 也是 人, '", - "replace text[28:41] --> decoded_text[83:89] '住情绪,就让他骂吧。他也是' --> ' 是 神, '", - "replace text[42:48] --> decoded_text[90:91] ',不是神,人' --> ' '", - "insert text[50:50] --> decoded_text[93:94] '' --> ' '", - "insert text[52:52] --> decoded_text[96:97] '' --> ' '", - "replace text[53:55] --> decoded_text[98:105] '脾气' --> ' [UNK] '", - "replace text[56:61] --> decoded_text[106:121] '他这次执导' --> ' 他 [UNK] [UNK] '", - "replace text[62:65] --> decoded_text[122:160] '晚,对' --> ' [UNK], [UNK] [UNK] [UNK] :“ 老 [UNK], '", - "replace text[66:87] --> decoded_text[161:220] '也开骂:“老毕,我跟你说了这么长时间,让你' --> ' [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] 2 号 位, [UNK] 要 '", - "replace text[88:89] --> decoded_text[221:224] '2' --> ' 1 '", - "insert text[90:90] --> decoded_text[225:226] '' --> ' '", - "replace text[91:108] --> decoded_text[227:253] ',你非要走1号位,你想跟我较死劲是' --> ', [UNK] [UNK] [UNK] [UNK] '", - "replace text[109:111] --> decoded_text[254:257] '是?' --> ' 是?'", - "replace text[112:117] --> decoded_text[258:273] '这也是骂人' --> ' [UNK] 是 [UNK] '", - "insert text[118:118] --> decoded_text[274:275] '' --> ' '", - "insert text[119:119] --> decoded_text[276:277] '' --> ' '", - "replace text[120:122] --> decoded_text[278:285] '为你' --> ' [UNK] '", - "insert text[124:124] --> decoded_text[287:288] '' --> ' '", - "replace text[126:129] --> decoded_text[290:296] '他,他' --> ' 他, 他 '", - "insert text[131:131] --> decoded_text[298:299] '' --> ' '", - "insert text[133:133] --> decoded_text[301:302] '' --> ' '", - "replace text[134:136] --> decoded_text[303:310] '恶意' --> ' [UNK] '" - ], - "n_oov_chars": 52, - "oov_ratio": 0.3795620437956204, - "oov_charset": "[\"导\", \"每\", \"你\", \"欢\", \"东\", \",\", \"时\", \"绪\", \"让\", \"骂\", \"吧\", \"脾\", \"气\", \"这\", \"执\", \"晚\", \"对\", \"开\", \":\", \"毕\", \"跟\", \"说\", \"么\", \"长\", \"间\", \"较\", \"劲\", \"?\", \"为\", \"恶\"]" - }, - { - "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", - "decoded_text": "[UNK] [UNK] [UNK] 牌 不 [UNK] 得 多, [UNK] 也花 得 多 。 有 媒体 [UNK], 教 [UNK] 洛 斯的 年 薪 高 [UNK] 360 万 元 人民 [UNK], 李 [UNK] 年 的 花 [UNK] 600 多 万 元 。 用 [UNK], [UNK] [UNK] 一 [UNK], 将 近 2 万元就出去了 。", - "diff": [ - "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", - "insert text[7:7] --> decoded_text[19:20] '' --> ' '", - "replace text[8:10] --> decoded_text[21:28] '过挣' --> ' [UNK] '", - "insert text[11:11] --> decoded_text[29:30] '' --> ' '", - "replace text[12:15] --> decoded_text[31:39] ',娜姐' --> ', [UNK] '", - "insert text[17:17] --> decoded_text[41:42] '' --> ' '", - "insert text[18:18] --> decoded_text[43:44] '' --> ' '", - "insert text[19:19] --> decoded_text[45:46] '' --> ' '", - "insert text[20:20] --> decoded_text[47:48] '' --> ' '", - "insert text[21:21] --> decoded_text[49:50] '' --> ' '", - "replace text[23:26] --> decoded_text[52:60] '报道,' --> ' [UNK], '", - "replace text[27:29] --> decoded_text[61:68] '练卡' --> ' [UNK] '", - "insert text[30:30] --> decoded_text[69:70] '' --> ' '", - "insert text[32:32] --> decoded_text[72:73] '' --> ' '", - "insert text[33:33] --> decoded_text[74:75] '' --> ' '", - "insert text[34:34] --> decoded_text[76:77] '' --> ' '", - "replace text[35:36] --> decoded_text[78:85] '达' --> ' [UNK] '", - "insert text[39:39] --> decoded_text[88:89] '' --> ' '", - "insert text[40:40] --> decoded_text[90:91] '' --> ' '", - "insert text[41:41] --> decoded_text[92:93] '' --> ' '", - "replace text[43:45] --> decoded_text[95:103] '币,' --> ' [UNK], '", - "replace text[46:48] --> decoded_text[104:111] '娜每' --> ' [UNK] '", - "insert text[49:49] --> decoded_text[112:113] '' --> ' '", - "insert text[50:50] --> decoded_text[114:115] '' --> ' '", - "replace text[51:53] --> decoded_text[116:123] '费是' --> ' [UNK] '", - "insert text[56:56] --> decoded_text[126:127] '' --> ' '", - "insert text[57:57] --> decoded_text[128:129] '' --> ' '", - "insert text[58:58] --> decoded_text[130:131] '' --> ' '", - "insert text[59:59] --> decoded_text[132:133] '' --> ' '", - "insert text[60:60] --> decoded_text[134:135] '' --> ' '", - "insert text[61:61] --> decoded_text[136:156] '' --> ' [UNK], [UNK] [UNK] '", - "replace text[62:77] --> decoded_text[157:165] '个形象的比喻,娜姐每天一睁眼,' --> ' [UNK], '", - "insert text[78:78] --> decoded_text[166:167] '' --> ' '", - "insert text[79:79] --> decoded_text[168:169] '' --> ' '", - "insert text[80:80] --> decoded_text[170:171] '' --> ' '", - "insert text[86:86] --> decoded_text[177:178] '' --> ' '" - ], - "n_oov_chars": 27, - "oov_ratio": 0.3103448275862069, - "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"过\", \"挣\", \",\", \"娜\", \"姐\", \"报\", \"练\", \"卡\", \"达\", \"币\", \"每\", \"费\", \"个\", \"喻\", \"睁\"]" - }, - { - "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", - "decoded_text": "“ 金 庸 的 小 [UNK] 《 [UNK] [UNK] 》 里 有 一 [UNK] 派 人物 [UNK] 血刀 老 祖 ’, [UNK], 但 是 [UNK] 人物 却做 得心 安 理 得, 理 直 [UNK], 我 [UNK] 到 的 [UNK] 的 [UNK] 是 [UNK] 。 ” 王 先生 向 [UNK] 描述 [UNK] [UNK] [UNK] 。 原 来, 昨日 王 先生 在 搭出 [UNK] [UNK], [UNK] 到 的 的 [UNK] [UNK] “ 拾 金 [UNK] ”, [UNK] “ [UNK] ” 得 理 直 [UNK] 。", - "diff": [ - "insert text[1:1] --> decoded_text[1:2] '' --> ' '", - "insert text[2:2] --> decoded_text[3:4] '' --> ' '", - "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", - "replace text[5:6] --> decoded_text[9:16] '说' --> ' [UNK] '", - "replace text[7:10] --> decoded_text[17:30] '连城诀' --> ' [UNK] [UNK] '", - "insert text[11:11] --> decoded_text[31:32] '' --> ' '", - "insert text[12:12] --> decoded_text[33:34] '' --> ' '", - "insert text[13:13] --> decoded_text[35:36] '' --> ' '", - "replace text[14:16] --> decoded_text[37:44] '个反' --> ' [UNK] '", - "insert text[17:17] --> decoded_text[45:46] '' --> ' '", - "replace text[19:20] --> decoded_text[48:55] '‘' --> ' [UNK] '", - "insert text[22:22] --> decoded_text[57:58] '' --> ' '", - "insert text[23:23] --> decoded_text[59:60] '' --> ' '", - "insert text[24:24] --> decoded_text[61:62] '' --> ' '", - "replace text[25:35] --> decoded_text[63:74] ',一般的坏人做坏事都' --> ', [UNK], 但 '", - "replace text[36:44] --> decoded_text[75:82] '心虚的,但是这个' --> ' [UNK] '", - "insert text[46:46] --> decoded_text[84:85] '' --> ' '", - "insert text[48:48] --> decoded_text[87:88] '' --> ' '", - "insert text[50:50] --> decoded_text[90:91] '' --> ' '", - "insert text[51:51] --> decoded_text[92:93] '' --> ' '", - "insert text[52:52] --> decoded_text[94:95] '' --> ' '", - "replace text[53:54] --> decoded_text[96:98] ',' --> ', '", - "insert text[55:55] --> decoded_text[99:100] '' --> ' '", - "replace text[56:59] --> decoded_text[101:109] '气壮,' --> ' [UNK], '", - "replace text[60:61] --> decoded_text[110:117] '遇' --> ' [UNK] '", - "replace text[62:68] --> decoded_text[118:135] '的这个的哥就' --> ' 的 [UNK] 的 [UNK] '", - "replace text[69:71] --> decoded_text[136:143] '这样' --> ' [UNK] '", - "insert text[72:72] --> decoded_text[144:145] '' --> ' '", - "insert text[73:73] --> decoded_text[146:147] '' --> ' '", - "insert text[74:74] --> decoded_text[148:149] '' --> ' '", - "insert text[76:76] --> decoded_text[151:152] '' --> ' '", - "replace text[77:79] --> decoded_text[153:160] '记者' --> ' [UNK] '", - "replace text[81:92] --> decoded_text[162:181] '经过时第一句话便这样说' --> ' [UNK] [UNK] [UNK] '", - "insert text[93:93] --> decoded_text[182:183] '' --> ' '", - "insert text[94:94] --> decoded_text[184:185] '' --> ' '", - "replace text[95:96] --> decoded_text[186:188] ',' --> ', '", - "insert text[98:98] --> decoded_text[190:191] '' --> ' '", - "insert text[99:99] --> decoded_text[192:193] '' --> ' '", - "insert text[101:101] --> decoded_text[195:196] '' --> ' '", - "insert text[102:102] --> decoded_text[197:198] '' --> ' '", - "replace text[104:109] --> decoded_text[200:220] '租车时,遇' --> ' [UNK] [UNK], [UNK] '", - "replace text[110:115] --> decoded_text[221:238] '的的哥不仅' --> ' 的 的 [UNK] [UNK] '", - "insert text[116:116] --> decoded_text[239:240] '' --> ' '", - "insert text[117:117] --> decoded_text[241:242] '' --> ' '", - "replace text[118:120] --> decoded_text[243:250] '而昧' --> ' [UNK] '", - "replace text[121:123] --> decoded_text[251:259] ',还' --> ', [UNK] '", - "replace text[124:125] --> decoded_text[260:267] '昧' --> ' [UNK] '", - "insert text[126:126] --> decoded_text[268:269] '' --> ' '", - "insert text[127:127] --> decoded_text[270:271] '' --> ' '", - "insert text[128:128] --> decoded_text[272:273] '' --> ' '", - "replace text[129:131] --> decoded_text[274:281] '气壮' --> ' [UNK] '" - ], - "n_oov_chars": 41, - "oov_ratio": 0.3106060606060606, - "oov_charset": "[\"说\", \"连\", \"诀\", \"个\", \"‘\", \",\", \"坏\", \"这\", \"气\", \"遇\", \"哥\", \"样\", \"记\", \"经\", \"过\", \"时\", \"话\", \"车\", \"仅\", \"而\", \"昧\", \"还\"]" - } +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] 牌 [UNK] ( www. suzastampin. com ) [UNK] ・ 斯利 [UNK] 2012 年 加入 塔 塔 [UNK] 公司 担任 [UNK] 理 一 [UNK], [UNK] [UNK] 公司 在 印度 及国 [UNK] [UNK] 除 捷 豹 和 路 虎 以外 的 [UNK] 。 [UNK] 斯坦 福 大学 的 [UNK] 生, 曾任 通用 [UNK] 在 中国 合 [UNK] 公司 的 。 近日, [UNK] [UNK] [UNK] 到 山西 [UNK] 北京 [UNK] [UNK] 4 S 店 得知, 店内 朗 [UNK] 型 有 [UNK] 供 [UNK], [UNK] 段 [UNK] 可 享受 最高 6000 元 [UNK] 幅 度, 具体 的 [UNK] 和 [UNK] 情 [UNK] [UNK] 表, 同 [UNK] [UNK] 的 朋友 [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] :", + "diff": [ + "replace text[0:7] --> decoded_text[0:24] '卍招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[25:32] '卍' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[33:34] '' --> ' '", + "insert text[14:14] --> decoded_text[38:39] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[29:29] --> decoded_text[55:56] '' --> ' '", + "replace text[30:32] --> decoded_text[57:64] '卡尔' --> ' [UNK] '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[35:37] --> decoded_text[68:75] '姆于' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "replace text[46:48] --> decoded_text[88:95] '汽车' --> ' [UNK] '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "replace text[52:54] --> decoded_text[100:107] '总经' --> ' [UNK] '", + "insert text[55:55] --> decoded_text[108:109] '' --> ' '", + "replace text[56:61] --> decoded_text[110:130] '职,并负责' --> ' [UNK], [UNK] [UNK] '", + "insert text[63:63] --> decoded_text[132:133] '' --> ' '", + "insert text[64:64] --> decoded_text[134:135] '' --> ' '", + "insert text[66:66] --> decoded_text[137:138] '' --> ' '", + "replace text[68:72] --> decoded_text[140:153] '际市场上' --> ' [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[154:155] '' --> ' '", + "insert text[74:74] --> decoded_text[156:157] '' --> ' '", + "insert text[75:75] --> decoded_text[158:159] '' --> ' '", + "insert text[76:76] --> decoded_text[160:161] '' --> ' '", + "insert text[77:77] --> decoded_text[162:163] '' --> ' '", + "insert text[78:78] --> decoded_text[164:165] '' --> ' '", + "insert text[80:80] --> decoded_text[167:168] '' --> ' '", + "replace text[81:83] --> decoded_text[169:176] '业务' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[177:184] '这位' --> ' [UNK] '", + "insert text[88:88] --> decoded_text[186:187] '' --> ' '", + "insert text[89:89] --> decoded_text[188:189] '' --> ' '", + "insert text[91:91] --> decoded_text[191:192] '' --> ' '", + "replace text[92:94] --> decoded_text[193:200] '毕业' --> ' [UNK] '", + "replace text[95:96] --> decoded_text[201:203] ',' --> ', '", + "insert text[98:98] --> decoded_text[205:206] '' --> ' '", + "replace text[100:102] --> decoded_text[208:215] '汽车' --> ' [UNK] '", + "insert text[103:103] --> decoded_text[216:217] '' --> ' '", + "insert text[105:105] --> decoded_text[219:220] '' --> ' '", + "replace text[106:107] --> decoded_text[221:228] '资' --> ' [UNK] '", + "insert text[109:109] --> decoded_text[230:231] '' --> ' '", + "insert text[110:110] --> decoded_text[232:233] '' --> ' '", + "insert text[111:111] --> decoded_text[234:235] '' --> ' '", + "replace text[113:120] --> decoded_text[237:257] ',编辑专门联系' --> ', [UNK] [UNK] [UNK] '", + "insert text[121:121] --> decoded_text[258:259] '' --> ' '", + "replace text[123:125] --> decoded_text[261:268] '传奇' --> ' [UNK] '", + "replace text[127:131] --> decoded_text[270:283] '现代汽车' --> ' [UNK] [UNK] '", + "insert text[132:132] --> decoded_text[284:285] '' --> ' '", + "insert text[133:133] --> decoded_text[286:287] '' --> ' '", + "insert text[134:134] --> decoded_text[288:289] '' --> ' '", + "replace text[136:137] --> decoded_text[291:293] ',' --> ', '", + "insert text[139:139] --> decoded_text[295:296] '' --> ' '", + "replace text[140:142] --> decoded_text[297:304] '动车' --> ' [UNK] '", + "insert text[143:143] --> decoded_text[305:306] '' --> ' '", + "replace text[144:146] --> decoded_text[307:314] '现车' --> ' [UNK] '", + "replace text[147:151] --> decoded_text[315:329] '应,现阶' --> ' [UNK], [UNK] '", + "replace text[152:154] --> decoded_text[330:337] '购车' --> ' [UNK] '", + "insert text[155:155] --> decoded_text[338:339] '' --> ' '", + "insert text[157:157] --> decoded_text[341:342] '' --> ' '", + "insert text[159:159] --> decoded_text[344:345] '' --> ' '", + "insert text[163:163] --> decoded_text[349:350] '' --> ' '", + "replace text[164:166] --> decoded_text[351:358] '优惠' --> ' [UNK] '", + "insert text[167:167] --> decoded_text[359:360] '' --> ' '", + "replace text[168:169] --> decoded_text[361:363] ',' --> ', '", + "insert text[171:171] --> decoded_text[365:366] '' --> ' '", + "replace text[172:174] --> decoded_text[367:374] '车型' --> ' [UNK] '", + "replace text[175:177] --> decoded_text[375:382] '价格' --> ' [UNK] '", + "replace text[178:182] --> decoded_text[383:396] '况请见下' --> ' [UNK] [UNK] '", + "replace text[183:184] --> decoded_text[397:399] ',' --> ', '", + "replace text[185:189] --> decoded_text[400:413] '时感兴趣' --> ' [UNK] [UNK] '", + "insert text[190:190] --> decoded_text[414:415] '' --> ' '", + "replace text[192:196] --> decoded_text[417:430] '还可致电' --> ' [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[440:447] '转' --> ' [UNK] '", + "replace text[211:214] --> decoded_text[451:459] '详询:' --> ' [UNK] :'" + ], + "n_oov_chars": 64, + "oov_ratio": 0.29906542056074764, + "oov_charset": "[\"卍\", \"财\", \"带\", \"什\", \"么\", \"卡\", \"尔\", \"姆\", \"车\", \"总\", \"经\", \"职\", \",\", \"并\", \"负\", \"责\", \"际\", \"场\", \"业\", \"务\", \"这\", \"毕\", \"资\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"传\", \"现\", \"动\", \"应\", \"阶\", \"购\", \"优\", \"惠\", \"价\", \"况\", \"请\", \"见\", \"时\", \"兴\", \"还\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "[UNK] 《 幸福 [UNK] [UNK] 》 的 案 例 令 中国 [UNK] 彼 得 [UNK] 事 官 胡 [UNK] 印象 深刻 。 由 于行 前 未 能 [UNK] 核 [UNK] [UNK] [UNK], 一 [UNK] [UNK] [UNK] 旅 [UNK] 的中 国夫 [UNK] [UNK] [UNK] 期 差 点 被 困 在 [UNK] [UNK] 。 在 胡 [UNK] [UNK] 下, [UNK] 夫 [UNK] [UNK] [UNK] [UNK] 的 3 小 [UNK], [UNK] 在 [UNK] 起 [UNK] 5 分 [UNK], 登 上 返 程 的 航 班 。", + "diff": [ + "replace text[0:8] --> decoded_text[0:6] '一个类似美国大片' --> '[UNK] '", + "insert text[9:9] --> decoded_text[7:8] '' --> ' '", + "replace text[11:14] --> decoded_text[10:23] '终点站' --> ' [UNK] [UNK] '", + "insert text[15:15] --> decoded_text[24:25] '' --> ' '", + "insert text[16:16] --> decoded_text[26:27] '' --> ' '", + "insert text[17:17] --> decoded_text[28:29] '' --> ' '", + "insert text[18:18] --> decoded_text[30:31] '' --> ' '", + "insert text[19:19] --> decoded_text[32:33] '' --> ' '", + "replace text[21:23] --> decoded_text[35:42] '驻圣' --> ' [UNK] '", + "insert text[24:24] --> decoded_text[43:44] '' --> ' '", + "replace text[25:27] --> decoded_text[45:52] '堡领' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[53:54] '' --> ' '", + "insert text[29:29] --> decoded_text[55:56] '' --> ' '", + "replace text[30:31] --> decoded_text[57:64] '滨' --> ' [UNK] '", + "insert text[33:33] --> decoded_text[66:67] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[76:77] '' --> ' '", + "insert text[40:40] --> decoded_text[78:79] '' --> ' '", + "insert text[41:41] --> decoded_text[80:81] '' --> ' '", + "replace text[42:44] --> decoded_text[82:89] '仔细' --> ' [UNK] '", + "replace text[45:52] --> decoded_text[90:110] '对签证有效期,' --> ' [UNK] [UNK] [UNK], '", + "replace text[53:58] --> decoded_text[111:130] '对赴俄罗斯' --> ' [UNK] [UNK] [UNK] '", + "replace text[59:60] --> decoded_text[131:138] '游' --> ' [UNK] '", + "insert text[62:62] --> decoded_text[140:141] '' --> ' '", + "replace text[64:70] --> decoded_text[143:162] '妇因为签证过' --> ' [UNK] [UNK] [UNK] '", + "insert text[71:71] --> decoded_text[163:164] '' --> ' '", + "insert text[72:72] --> decoded_text[165:166] '' --> ' '", + "insert text[73:73] --> decoded_text[167:168] '' --> ' '", + "insert text[74:74] --> decoded_text[169:170] '' --> ' '", + "insert text[75:75] --> decoded_text[171:172] '' --> ' '", + "replace text[76:79] --> decoded_text[173:186] '俄罗斯' --> ' [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[187:188] '' --> ' '", + "insert text[81:81] --> decoded_text[189:190] '' --> ' '", + "replace text[82:83] --> decoded_text[191:239] '滨' --> ' [UNK] [UNK] 下, [UNK] 夫 [UNK] [UNK] [UNK] [UNK] '", + "replace text[84:99] --> decoded_text[240:293] '协助下,这对夫妇经历了惊心动魄' --> ' 3 小 [UNK], [UNK] 在 [UNK] 起 [UNK] 5 分 [UNK], 登 上 返 程 '", + "replace text[100:121] --> decoded_text[294:295] '3小时,终于在飞机起飞前5分钟,登上返程的' --> ' '", + "insert text[122:122] --> decoded_text[296:297] '' --> ' '", + "insert text[123:123] --> decoded_text[298:299] '' --> ' '" + ], + "n_oov_chars": 45, + "oov_ratio": 0.3629032258064516, + "oov_charset": "[\"个\", \"类\", \"终\", \"站\", \"驻\", \"圣\", \"领\", \"滨\", \"细\", \"对\", \"签\", \"证\", \"效\", \",\", \"俄\", \"罗\", \"游\", \"妇\", \"为\", \"过\", \"协\", \"这\", \"经\", \"历\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"5\", \"钟\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] 牌 [UNK] 江 在 致辞 中 表示, 中 法 建 [UNK] [UNK] 中 法 [UNK] [UNK] 国家 友好 [UNK] 的 新 [UNK], [UNK] 了 不 同 社会 制度 国家 和平 共 [UNK] 新 典 范, [UNK] [UNK] 略 格 局 [UNK] 了 重大 [UNK] [UNK] 影 [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", + "replace text[7:9] --> decoded_text[19:26] '张德' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[27:28] '' --> ' '", + "insert text[11:11] --> decoded_text[29:30] '' --> ' '", + "insert text[13:13] --> decoded_text[32:33] '' --> ' '", + "insert text[14:14] --> decoded_text[34:35] '' --> ' '", + "replace text[16:17] --> decoded_text[37:39] ',' --> ', '", + "insert text[18:18] --> decoded_text[40:41] '' --> ' '", + "insert text[19:19] --> decoded_text[42:43] '' --> ' '", + "replace text[20:24] --> decoded_text[44:57] '交开启了' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[58:59] '' --> ' '", + "replace text[26:30] --> decoded_text[60:73] '两个伟大' --> ' [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "replace text[34:36] --> decoded_text[78:85] '关系' --> ' [UNK] '", + "insert text[37:37] --> decoded_text[86:87] '' --> ' '", + "replace text[38:43] --> decoded_text[88:102] '纪元,树立' --> ' [UNK], [UNK] '", + "insert text[44:44] --> decoded_text[103:104] '' --> ' '", + "insert text[45:45] --> decoded_text[105:106] '' --> ' '", + "insert text[46:46] --> decoded_text[107:108] '' --> ' '", + "insert text[48:48] --> decoded_text[110:111] '' --> ' '", + "insert text[50:50] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[116:117] '' --> ' '", + "insert text[54:54] --> decoded_text[119:120] '' --> ' '", + "replace text[55:57] --> decoded_text[121:128] '处的' --> ' [UNK] '", + "insert text[58:58] --> decoded_text[129:130] '' --> ' '", + "insert text[59:59] --> decoded_text[131:132] '' --> ' '", + "replace text[60:65] --> decoded_text[133:147] ',对国际战' --> ', [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[148:149] '' --> ' '", + "insert text[67:67] --> decoded_text[150:151] '' --> ' '", + "replace text[68:70] --> decoded_text[152:159] '产生' --> ' [UNK] '", + "insert text[71:71] --> decoded_text[160:161] '' --> ' '", + "replace text[73:77] --> decoded_text[163:176] '而深远的' --> ' [UNK] [UNK] '", + "replace text[78:79] --> decoded_text[177:184] '响' --> ' [UNK] '" + ], + "n_oov_chars": 25, + "oov_ratio": 0.3125, + "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"张\", \"德\", \",\", \"开\", \"启\", \"两\", \"个\", \"伟\", \"关\", \"纪\", \"树\", \"处\", \"对\", \"际\", \"战\", \"产\", \"而\", \"远\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] 牌 科 斯格 [UNK] [UNK], 曾被 派 [UNK] 来 西 [UNK] 、 越 南 、 英国 、 印度 、 美国 工作 。 1999 年, 他 成 [UNK] 合 国 [UNK] 帝 [UNK] [UNK] 令, [UNK] [UNK] [UNK] 独立 国家 的 [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", + "insert text[7:7] --> decoded_text[19:20] '' --> ' '", + "insert text[8:8] --> decoded_text[21:22] '' --> ' '", + "replace text[10:20] --> decoded_text[24:38] '罗夫一直供职于军队,' --> ' [UNK] [UNK], '", + "insert text[22:22] --> decoded_text[40:41] '' --> ' '", + "replace text[23:25] --> decoded_text[42:49] '往马' --> ' [UNK] '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "replace text[27:28] --> decoded_text[52:59] '亚' --> ' [UNK] '", + "insert text[29:29] --> decoded_text[60:61] '' --> ' '", + "insert text[30:30] --> decoded_text[62:63] '' --> ' '", + "insert text[31:31] --> decoded_text[64:65] '' --> ' '", + "insert text[32:32] --> decoded_text[66:67] '' --> ' '", + "insert text[34:34] --> decoded_text[69:70] '' --> ' '", + "insert text[35:35] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[74:75] '' --> ' '", + "insert text[38:38] --> decoded_text[76:77] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[82:83] '' --> ' '", + "insert text[43:43] --> decoded_text[84:85] '' --> ' '", + "insert text[47:47] --> decoded_text[89:90] '' --> ' '", + "replace text[48:49] --> decoded_text[91:93] ',' --> ', '", + "insert text[50:50] --> decoded_text[94:95] '' --> ' '", + "replace text[51:53] --> decoded_text[96:103] '为联' --> ' [UNK] '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "replace text[55:57] --> decoded_text[106:113] '驻东' --> ' [UNK] '", + "replace text[58:62] --> decoded_text[114:127] '汶部队司' --> ' [UNK] [UNK] '", + "replace text[63:70] --> decoded_text[128:148] ',监督东帝汶向' --> ', [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[150:151] '' --> ' '", + "insert text[74:74] --> decoded_text[153:154] '' --> ' '", + "replace text[75:77] --> decoded_text[155:162] '过渡' --> ' [UNK] '" + ], + "n_oov_chars": 23, + "oov_ratio": 0.2948717948717949, + "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"罗\", \"职\", \"军\", \"队\", \",\", \"马\", \"亚\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"监\", \"过\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] 香港 《 明 [UNK] 》 消息, 在 [UNK] [UNK] 士 [UNK] 美国 音 [UNK] [UNK] 50 周年 的 [UNK] 日子, 格 [UNK] 向 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] 高 史 [UNK] ( RingoStarr ) [UNK] [UNK] 成就 [UNK], [UNK] [UNK] 意 [UNK] 。 [UNK] 隆重 其事, 大会 [UNK] 金 像 影 后 [UNK] [UNK] [UNK] [UNK] 茨 ( JuliaRoberts ) [UNK] 介 [UNK] 二 人出 [UNK], 保 [UNK] 拍 [UNK] 鼓 声 和 [UNK], 先 献唱 新 歌 《 QueenieEye 》, 然 后 [UNK] 后 者 [UNK] 旧作 《 Photograph 》, [UNK] 歌 迷重 温 昔日 的 美好 情 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:7] --> decoded_text[8:15] '电据' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "replace text[11:12] --> decoded_text[21:28] '报' --> ' [UNK] '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "replace text[15:16] --> decoded_text[32:34] ',' --> ', '", + "replace text[17:21] --> decoded_text[35:48] '庆祝披头' --> ' [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[49:56] '进军' --> ' [UNK] '", + "insert text[26:26] --> decoded_text[58:59] '' --> ' '", + "replace text[27:30] --> decoded_text[60:73] '乐市场' --> ' [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[34:34] --> decoded_text[78:79] '' --> ' '", + "replace text[35:37] --> decoded_text[80:87] '纪念' --> ' [UNK] '", + "replace text[39:40] --> decoded_text[89:91] ',' --> ', '", + "replace text[41:43] --> decoded_text[92:99] '莱美' --> ' [UNK] '", + "replace text[44:48] --> decoded_text[100:113] '两名仅存' --> ' [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[114:123] '员:' --> ' [UNK] : '", + "replace text[52:58] --> decoded_text[124:143] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[144:145] '' --> ' '", + "replace text[60:61] --> decoded_text[146:153] '达' --> ' [UNK] '", + "insert text[62:62] --> decoded_text[154:155] '' --> ' '", + "insert text[72:72] --> decoded_text[165:166] '' --> ' '", + "replace text[73:77] --> decoded_text[167:180] '颁发终身' --> ' [UNK] [UNK] '", + "replace text[79:85] --> decoded_text[182:202] '奖,显得别具' --> ' [UNK], [UNK] [UNK] '", + "replace text[86:87] --> decoded_text[203:210] '义' --> ' [UNK] '", + "replace text[88:90] --> decoded_text[211:218] '为了' --> ' [UNK] '", + "insert text[92:92] --> decoded_text[220:221] '' --> ' '", + "replace text[94:95] --> decoded_text[223:225] ',' --> ', '", + "replace text[97:99] --> decoded_text[227:234] '请来' --> ' [UNK] '", + "insert text[100:100] --> decoded_text[235:236] '' --> ' '", + "insert text[101:101] --> decoded_text[237:238] '' --> ' '", + "insert text[102:102] --> decoded_text[239:240] '' --> ' '", + "replace text[103:110] --> decoded_text[241:266] '茱莉亚••罗伯' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[111:111] --> decoded_text[267:268] '' --> ' '", + "insert text[112:112] --> decoded_text[269:270] '' --> ' '", + "insert text[124:124] --> decoded_text[282:283] '' --> ' '", + "replace text[125:127] --> decoded_text[284:291] '负责' --> ' [UNK] '", + "replace text[128:129] --> decoded_text[292:299] '绍' --> ' [UNK] '", + "insert text[130:130] --> decoded_text[300:301] '' --> ' '", + "replace text[132:134] --> decoded_text[303:311] '场,' --> ' [UNK], '", + "replace text[135:137] --> decoded_text[312:319] '罗在' --> ' [UNK] '", + "replace text[138:140] --> decoded_text[320:327] '档的' --> ' [UNK] '", + "insert text[141:141] --> decoded_text[328:329] '' --> ' '", + "insert text[142:142] --> decoded_text[330:331] '' --> ' '", + "replace text[143:146] --> decoded_text[332:340] '应下,' --> ' [UNK], '", + "insert text[147:147] --> decoded_text[341:342] '' --> ' '", + "insert text[149:149] --> decoded_text[344:345] '' --> ' '", + "insert text[150:150] --> decoded_text[346:347] '' --> ' '", + "insert text[151:151] --> decoded_text[348:349] '' --> ' '", + "insert text[152:152] --> decoded_text[350:351] '' --> ' '", + "insert text[162:162] --> decoded_text[361:362] '' --> ' '", + "replace text[163:164] --> decoded_text[363:365] ',' --> ', '", + "insert text[165:165] --> decoded_text[366:367] '' --> ' '", + "replace text[166:168] --> decoded_text[368:375] '轮到' --> ' [UNK] '", + "insert text[169:169] --> decoded_text[376:377] '' --> ' '", + "replace text[170:172] --> decoded_text[378:385] '演绎' --> ' [UNK] '", + "insert text[174:174] --> decoded_text[387:388] '' --> ' '", + "insert text[175:175] --> decoded_text[389:390] '' --> ' '", + "insert text[185:185] --> decoded_text[400:401] '' --> ' '", + "replace text[186:189] --> decoded_text[402:410] ',带领' --> ', [UNK] '", + "insert text[190:190] --> decoded_text[411:412] '' --> ' '", + "insert text[192:192] --> decoded_text[414:415] '' --> ' '", + "insert text[193:193] --> decoded_text[416:417] '' --> ' '", + "insert text[195:195] --> decoded_text[419:420] '' --> ' '", + "insert text[196:196] --> decoded_text[421:422] '' --> ' '", + "insert text[198:198] --> decoded_text[424:425] '' --> ' '", + "replace text[199:200] --> decoded_text[426:433] '怀' --> ' [UNK] '" + ], + "n_oov_chars": 53, + "oov_ratio": 0.263681592039801, + "oov_charset": "[\"电\", \"报\", \",\", \"庆\", \"披\", \"头\", \"进\", \"军\", \"乐\", \"场\", \"纪\", \"莱\", \"两\", \"仅\", \"员\", \":\", \"罗\", \"卡\", \"灵\", \"达\", \"颁\", \"发\", \"终\", \"奖\", \"显\", \"别\", \"义\", \"为\", \"请\", \"茱\", \"亚\", \"•\", \"负\", \"责\", \"绍\", \"档\", \"应\", \"轮\", \"绎\", \"带\", \"领\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 [UNK] 里 有 [UNK] [UNK] 目的 地 后, [UNK] 全 程 的 [UNK] [UNK] 14 元, 但 司 机 到 [UNK] 21 元, 因 此, 司 机 [UNK] 者 7 元, 除去 之 前 支付 的 1 元, [UNK] [UNK] 6 元, [UNK] [UNK] 了 本 [UNK] 付 14 元 的 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:10] '绳哪' --> ' [UNK] '", + "insert text[5:5] --> decoded_text[11:12] '' --> ' '", + "replace text[6:9] --> decoded_text[13:26] '卖到达' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[28:29] '' --> ' '", + "insert text[12:12] --> decoded_text[30:31] '' --> ' '", + "replace text[13:16] --> decoded_text[32:40] ',记者' --> ', [UNK] '", + "insert text[17:17] --> decoded_text[41:42] '' --> ' '", + "insert text[18:18] --> decoded_text[43:44] '' --> ' '", + "replace text[19:23] --> decoded_text[45:58] '总车费是' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[60:61] '' --> ' '", + "replace text[26:27] --> decoded_text[62:64] ',' --> ', '", + "insert text[28:28] --> decoded_text[65:66] '' --> ' '", + "insert text[29:29] --> decoded_text[67:68] '' --> ' '", + "insert text[30:30] --> decoded_text[69:70] '' --> ' '", + "replace text[31:32] --> decoded_text[71:78] '账' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[80:81] '' --> ' '", + "replace text[35:36] --> decoded_text[82:84] ',' --> ', '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:39] --> decoded_text[87:89] ',' --> ', '", + "insert text[40:40] --> decoded_text[90:91] '' --> ' '", + "replace text[41:43] --> decoded_text[92:99] '给记' --> ' [UNK] '", + "insert text[44:44] --> decoded_text[100:101] '' --> ' '", + "insert text[45:45] --> decoded_text[102:103] '' --> ' '", + "replace text[46:47] --> decoded_text[104:106] ',' --> ', '", + "insert text[49:49] --> decoded_text[108:109] '' --> ' '", + "insert text[50:50] --> decoded_text[110:111] '' --> ' '", + "insert text[51:51] --> decoded_text[112:113] '' --> ' '", + "insert text[53:53] --> decoded_text[115:116] '' --> ' '", + "insert text[54:54] --> decoded_text[117:118] '' --> ' '", + "insert text[55:55] --> decoded_text[119:120] '' --> ' '", + "replace text[56:61] --> decoded_text[121:135] ',记者净赚' --> ', [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[136:137] '' --> ' '", + "replace text[63:68] --> decoded_text[138:152] ',还免费乘' --> ', [UNK] [UNK] '", + "insert text[69:69] --> decoded_text[153:154] '' --> ' '", + "replace text[70:72] --> decoded_text[155:162] '应支' --> ' [UNK] '", + "insert text[73:73] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[166:167] '' --> ' '", + "insert text[76:76] --> decoded_text[168:169] '' --> ' '", + "replace text[77:78] --> decoded_text[170:177] '车' --> ' [UNK] '" + ], + "n_oov_chars": 26, + "oov_ratio": 0.3291139240506329, + "oov_charset": "[\"绳\", \"哪\", \"卖\", \"达\", \",\", \"记\", \"总\", \"车\", \"费\", \"账\", \"给\", \"净\", \"赚\", \"还\", \"乘\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] ・ 斯利 [UNK] 2012 年 加入 塔 塔 [UNK] 公司 担任 [UNK] 理 一 [UNK], [UNK] [UNK] 公司 在 印度 及国 [UNK] [UNK] 除 捷 豹 和 路 虎 以外 的 [UNK] 。 [UNK] 斯坦 福 大学 的 [UNK] 生, 曾任 通用 [UNK] 在 中国 合 [UNK] 公司 的 副 [UNK], 上 汽 通用 [UNK] 。( 方 [UNK] )", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] '卡尔' --> '[UNK] '", + "insert text[3:3] --> decoded_text[7:8] '' --> ' '", + "replace text[5:7] --> decoded_text[10:17] '姆于' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "insert text[15:15] --> decoded_text[28:29] '' --> ' '", + "replace text[16:18] --> decoded_text[30:37] '汽车' --> ' [UNK] '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "replace text[22:24] --> decoded_text[42:49] '总经' --> ' [UNK] '", + "insert text[25:25] --> decoded_text[50:51] '' --> ' '", + "replace text[26:31] --> decoded_text[52:72] '职,并负责' --> ' [UNK], [UNK] [UNK] '", + "insert text[33:33] --> decoded_text[74:75] '' --> ' '", + "insert text[34:34] --> decoded_text[76:77] '' --> ' '", + "insert text[36:36] --> decoded_text[79:80] '' --> ' '", + "replace text[38:42] --> decoded_text[82:95] '际市场上' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[96:97] '' --> ' '", + "insert text[44:44] --> decoded_text[98:99] '' --> ' '", + "insert text[45:45] --> decoded_text[100:101] '' --> ' '", + "insert text[46:46] --> decoded_text[102:103] '' --> ' '", + "insert text[47:47] --> decoded_text[104:105] '' --> ' '", + "insert text[48:48] --> decoded_text[106:107] '' --> ' '", + "insert text[50:50] --> decoded_text[109:110] '' --> ' '", + "replace text[51:53] --> decoded_text[111:118] '业务' --> ' [UNK] '", + "replace text[54:56] --> decoded_text[119:126] '这位' --> ' [UNK] '", + "insert text[58:58] --> decoded_text[128:129] '' --> ' '", + "insert text[59:59] --> decoded_text[130:131] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:142] '毕业' --> ' [UNK] '", + "replace text[65:66] --> decoded_text[143:145] ',' --> ', '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[70:72] --> decoded_text[150:157] '汽车' --> ' [UNK] '", + "insert text[73:73] --> decoded_text[158:159] '' --> ' '", + "insert text[75:75] --> decoded_text[161:162] '' --> ' '", + "replace text[76:77] --> decoded_text[163:170] '资' --> ' [UNK] '", + "insert text[79:79] --> decoded_text[172:173] '' --> ' '", + "insert text[80:80] --> decoded_text[174:175] '' --> ' '", + "replace text[81:84] --> decoded_text[176:184] '总裁,' --> ' [UNK], '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "replace text[88:109] --> decoded_text[190:197] '五菱公司的副总裁以及通用汽车印度公司的总裁' --> ' [UNK] '", + "insert text[111:111] --> decoded_text[199:200] '' --> ' '", + "replace text[112:114] --> decoded_text[201:208] '赵春' --> ' [UNK] '" + ], + "n_oov_chars": 27, + "oov_ratio": 0.23478260869565218, + "oov_charset": "[\"卡\", \"尔\", \"姆\", \"车\", \"总\", \"经\", \"职\", \",\", \"并\", \"负\", \"责\", \"际\", \"场\", \"业\", \"务\", \"这\", \"毕\", \"资\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 [UNK] 不可能 [UNK] 作品 都 是 [UNK] [UNK] [UNK], 如果 他 [UNK], [UNK] 他 [UNK] 。 他 也是 人, 不 是 神, 人 就有 自己 的 [UNK] 。 他 [UNK] [UNK] 春 [UNK], [UNK] [UNK] [UNK] :“ 老 [UNK], 我 [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] 2 号 位, [UNK] 要 走 1 号 位, [UNK] [UNK] [UNK] [UNK] 不 是?” [UNK] 是 [UNK] 。 但 因 [UNK] 非常 了解 他, 他 也不 一定 有 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:10] '导演' --> ' [UNK] '", + "replace text[7:9] --> decoded_text[13:20] '每部' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[22:23] '' --> ' '", + "replace text[12:20] --> decoded_text[24:46] '是你喜欢的东西,' --> ' 是 [UNK] [UNK] [UNK], '", + "replace text[22:27] --> decoded_text[48:82] '他一时控制' --> ' 他 [UNK], [UNK] 他 [UNK] 。 他 也是 人, '", + "replace text[28:41] --> decoded_text[83:89] '住情绪,就让他骂吧。他也是' --> ' 是 神, '", + "replace text[42:48] --> decoded_text[90:91] ',不是神,人' --> ' '", + "insert text[50:50] --> decoded_text[93:94] '' --> ' '", + "insert text[52:52] --> decoded_text[96:97] '' --> ' '", + "replace text[53:55] --> decoded_text[98:105] '脾气' --> ' [UNK] '", + "replace text[56:61] --> decoded_text[106:121] '他这次执导' --> ' 他 [UNK] [UNK] '", + "replace text[62:65] --> decoded_text[122:160] '晚,对' --> ' [UNK], [UNK] [UNK] [UNK] :“ 老 [UNK], '", + "replace text[66:87] --> decoded_text[161:220] '也开骂:“老毕,我跟你说了这么长时间,让你' --> ' [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] 2 号 位, [UNK] 要 '", + "replace text[88:89] --> decoded_text[221:224] '2' --> ' 1 '", + "insert text[90:90] --> decoded_text[225:226] '' --> ' '", + "replace text[91:108] --> decoded_text[227:253] ',你非要走1号位,你想跟我较死劲是' --> ', [UNK] [UNK] [UNK] [UNK] '", + "replace text[109:111] --> decoded_text[254:257] '是?' --> ' 是?'", + "replace text[112:117] --> decoded_text[258:273] '这也是骂人' --> ' [UNK] 是 [UNK] '", + "insert text[118:118] --> decoded_text[274:275] '' --> ' '", + "insert text[119:119] --> decoded_text[276:277] '' --> ' '", + "replace text[120:122] --> decoded_text[278:285] '为你' --> ' [UNK] '", + "insert text[124:124] --> decoded_text[287:288] '' --> ' '", + "replace text[126:129] --> decoded_text[290:296] '他,他' --> ' 他, 他 '", + "insert text[131:131] --> decoded_text[298:299] '' --> ' '", + "insert text[133:133] --> decoded_text[301:302] '' --> ' '", + "replace text[134:136] --> decoded_text[303:310] '恶意' --> ' [UNK] '" + ], + "n_oov_chars": 52, + "oov_ratio": 0.3795620437956204, + "oov_charset": "[\"导\", \"每\", \"你\", \"欢\", \"东\", \",\", \"时\", \"绪\", \"让\", \"骂\", \"吧\", \"脾\", \"气\", \"这\", \"执\", \"晚\", \"对\", \"开\", \":\", \"毕\", \"跟\", \"说\", \"么\", \"长\", \"间\", \"较\", \"劲\", \"?\", \"为\", \"恶\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] 牌 不 [UNK] 得 多, [UNK] 也花 得 多 。 有 媒体 [UNK], 教 [UNK] 洛 斯的 年 薪 高 [UNK] 360 万 元 人民 [UNK], 李 [UNK] 年 的 花 [UNK] 600 多 万 元 。 用 [UNK], [UNK] [UNK] 一 [UNK], 将 近 2 万元就出去了 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", + "insert text[7:7] --> decoded_text[19:20] '' --> ' '", + "replace text[8:10] --> decoded_text[21:28] '过挣' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[29:30] '' --> ' '", + "replace text[12:15] --> decoded_text[31:39] ',娜姐' --> ', [UNK] '", + "insert text[17:17] --> decoded_text[41:42] '' --> ' '", + "insert text[18:18] --> decoded_text[43:44] '' --> ' '", + "insert text[19:19] --> decoded_text[45:46] '' --> ' '", + "insert text[20:20] --> decoded_text[47:48] '' --> ' '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "replace text[23:26] --> decoded_text[52:60] '报道,' --> ' [UNK], '", + "replace text[27:29] --> decoded_text[61:68] '练卡' --> ' [UNK] '", + "insert text[30:30] --> decoded_text[69:70] '' --> ' '", + "insert text[32:32] --> decoded_text[72:73] '' --> ' '", + "insert text[33:33] --> decoded_text[74:75] '' --> ' '", + "insert text[34:34] --> decoded_text[76:77] '' --> ' '", + "replace text[35:36] --> decoded_text[78:85] '达' --> ' [UNK] '", + "insert text[39:39] --> decoded_text[88:89] '' --> ' '", + "insert text[40:40] --> decoded_text[90:91] '' --> ' '", + "insert text[41:41] --> decoded_text[92:93] '' --> ' '", + "replace text[43:45] --> decoded_text[95:103] '币,' --> ' [UNK], '", + "replace text[46:48] --> decoded_text[104:111] '娜每' --> ' [UNK] '", + "insert text[49:49] --> decoded_text[112:113] '' --> ' '", + "insert text[50:50] --> decoded_text[114:115] '' --> ' '", + "replace text[51:53] --> decoded_text[116:123] '费是' --> ' [UNK] '", + "insert text[56:56] --> decoded_text[126:127] '' --> ' '", + "insert text[57:57] --> decoded_text[128:129] '' --> ' '", + "insert text[58:58] --> decoded_text[130:131] '' --> ' '", + "insert text[59:59] --> decoded_text[132:133] '' --> ' '", + "insert text[60:60] --> decoded_text[134:135] '' --> ' '", + "insert text[61:61] --> decoded_text[136:156] '' --> ' [UNK], [UNK] [UNK] '", + "replace text[62:77] --> decoded_text[157:165] '个形象的比喻,娜姐每天一睁眼,' --> ' [UNK], '", + "insert text[78:78] --> decoded_text[166:167] '' --> ' '", + "insert text[79:79] --> decoded_text[168:169] '' --> ' '", + "insert text[80:80] --> decoded_text[170:171] '' --> ' '", + "insert text[86:86] --> decoded_text[177:178] '' --> ' '" + ], + "n_oov_chars": 27, + "oov_ratio": 0.3103448275862069, + "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"过\", \"挣\", \",\", \"娜\", \"姐\", \"报\", \"练\", \"卡\", \"达\", \"币\", \"每\", \"费\", \"个\", \"喻\", \"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 庸 的 小 [UNK] 《 [UNK] [UNK] 》 里 有 一 [UNK] 派 人物 [UNK] 血刀 老 祖 ’, [UNK], 但 是 [UNK] 人物 却做 得心 安 理 得, 理 直 [UNK], 我 [UNK] 到 的 [UNK] 的 [UNK] 是 [UNK] 。 ” 王 先生 向 [UNK] 描述 [UNK] [UNK] [UNK] 。 原 来, 昨日 王 先生 在 搭出 [UNK] [UNK], [UNK] 到 的 的 [UNK] [UNK] “ 拾 金 [UNK] ”, [UNK] “ [UNK] ” 得 理 直 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", + "replace text[5:6] --> decoded_text[9:16] '说' --> ' [UNK] '", + "replace text[7:10] --> decoded_text[17:30] '连城诀' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[31:32] '' --> ' '", + "insert text[12:12] --> decoded_text[33:34] '' --> ' '", + "insert text[13:13] --> decoded_text[35:36] '' --> ' '", + "replace text[14:16] --> decoded_text[37:44] '个反' --> ' [UNK] '", + "insert text[17:17] --> decoded_text[45:46] '' --> ' '", + "replace text[19:20] --> decoded_text[48:55] '‘' --> ' [UNK] '", + "insert text[22:22] --> decoded_text[57:58] '' --> ' '", + "insert text[23:23] --> decoded_text[59:60] '' --> ' '", + "insert text[24:24] --> decoded_text[61:62] '' --> ' '", + "replace text[25:35] --> decoded_text[63:74] ',一般的坏人做坏事都' --> ', [UNK], 但 '", + "replace text[36:44] --> decoded_text[75:82] '心虚的,但是这个' --> ' [UNK] '", + "insert text[46:46] --> decoded_text[84:85] '' --> ' '", + "insert text[48:48] --> decoded_text[87:88] '' --> ' '", + "insert text[50:50] --> decoded_text[90:91] '' --> ' '", + "insert text[51:51] --> decoded_text[92:93] '' --> ' '", + "insert text[52:52] --> decoded_text[94:95] '' --> ' '", + "replace text[53:54] --> decoded_text[96:98] ',' --> ', '", + "insert text[55:55] --> decoded_text[99:100] '' --> ' '", + "replace text[56:59] --> decoded_text[101:109] '气壮,' --> ' [UNK], '", + "replace text[60:61] --> decoded_text[110:117] '遇' --> ' [UNK] '", + "replace text[62:68] --> decoded_text[118:135] '的这个的哥就' --> ' 的 [UNK] 的 [UNK] '", + "replace text[69:71] --> decoded_text[136:143] '这样' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[144:145] '' --> ' '", + "insert text[73:73] --> decoded_text[146:147] '' --> ' '", + "insert text[74:74] --> decoded_text[148:149] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "replace text[77:79] --> decoded_text[153:160] '记者' --> ' [UNK] '", + "replace text[81:92] --> decoded_text[162:181] '经过时第一句话便这样说' --> ' [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[182:183] '' --> ' '", + "insert text[94:94] --> decoded_text[184:185] '' --> ' '", + "replace text[95:96] --> decoded_text[186:188] ',' --> ', '", + "insert text[98:98] --> decoded_text[190:191] '' --> ' '", + "insert text[99:99] --> decoded_text[192:193] '' --> ' '", + "insert text[101:101] --> decoded_text[195:196] '' --> ' '", + "insert text[102:102] --> decoded_text[197:198] '' --> ' '", + "replace text[104:109] --> decoded_text[200:220] '租车时,遇' --> ' [UNK] [UNK], [UNK] '", + "replace text[110:115] --> decoded_text[221:238] '的的哥不仅' --> ' 的 的 [UNK] [UNK] '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "insert text[117:117] --> decoded_text[241:242] '' --> ' '", + "replace text[118:120] --> decoded_text[243:250] '而昧' --> ' [UNK] '", + "replace text[121:123] --> decoded_text[251:259] ',还' --> ', [UNK] '", + "replace text[124:125] --> decoded_text[260:267] '昧' --> ' [UNK] '", + "insert text[126:126] --> decoded_text[268:269] '' --> ' '", + "insert text[127:127] --> decoded_text[270:271] '' --> ' '", + "insert text[128:128] --> decoded_text[272:273] '' --> ' '", + "replace text[129:131] --> decoded_text[274:281] '气壮' --> ' [UNK] '" + ], + "n_oov_chars": 41, + "oov_ratio": 0.3106060606060606, + "oov_charset": "[\"说\", \"连\", \"诀\", \"个\", \"‘\", \",\", \"坏\", \"这\", \"气\", \"遇\", \"哥\", \"样\", \"记\", \"经\", \"过\", \"时\", \"话\", \"车\", \"仅\", \"而\", \"昧\", \"还\"]" + } ] \ No newline at end of file diff --git a/stats/sample.py b/stats/sample.py index 147e9460b3402fc71c31aa65d61d0df1629b0c0b..d230a37cd9eb7fb233566a04f6378b573101ee42 100644 --- a/stats/sample.py +++ b/stats/sample.py @@ -1,31 +1,34 @@ -import os -import glob -import json - - -def extract(): - - for file_path in glob.glob("compression_rate_all/*.json"): - file_name = os.path.basename(file_path) - print(file_name) - data = json.load(open(file_path, "r", encoding="utf-8")) - - - with open(os.path.join("compression_rate", file_name), "w", encoding="utf-8") as f_out: - f_out.write(json.dumps(data[:10], ensure_ascii=False, indent=2)) - - -# def continue_extract(): -# for file_path in glob.glob("compression_rate/*.json"): -# file_name = os.path.basename(file_path) -# -# data = json.load(open(file_path, "r", encoding="utf-8")) -# if len(data) > 10: -# print(file_name, len(data)) -# # -# # with open(file_name, "w", encoding="utf-8") as f_out: -# # f_out.write(json.dumps(data[:10], ensure_ascii=False, indent=2)) -# - - +import os +import glob +import json + + +def extract(): + + for file_path in glob.glob("compression_rate_all/*.json"): + file_name = os.path.basename(file_path) + print(file_name) + try: + data = json.load(open(file_path, "r", encoding="utf-8")) + except: + print(file_path, "ERROR") + continue + + with open(os.path.join("compression_rate", file_name), "w", encoding="utf-8") as f_out: + f_out.write(json.dumps(data[:10], ensure_ascii=False, indent=2)) + + +# def continue_extract(): +# for file_path in glob.glob("compression_rate/*.json"): +# file_name = os.path.basename(file_path) +# +# data = json.load(open(file_path, "r", encoding="utf-8")) +# if len(data) > 10: +# print(file_name, len(data)) +# # +# # with open(file_name, "w", encoding="utf-8") as f_out: +# # f_out.write(json.dumps(data[:10], ensure_ascii=False, indent=2)) +# + + extract() \ No newline at end of file diff --git a/vocab.py b/vocab.py index b3d87eff8a5ab7df7991c04ed25a0e32c2dffb05..7b9ff2f47be6a5eced1b357b6ce9582e9ffd871c 100644 --- a/vocab.py +++ b/vocab.py @@ -389,6 +389,8 @@ _all_tokenizer_config = [ TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"), TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"), TokenizerConfig("databricks/dbrx-instruct", org="Databricks"), + TokenizerConfig("MiniMaxAI/MiniMax-Text-01", org="MiniMax"), + # TokenizerConfig("nvidia/Nemotron-4-340B-Instruct", org="Nvidia"),