updated tests for bh bs id ms

git-svn-id: https://cld2.googlecode.com/svn/trunk@100 b252ecd4-b096-bf77-eb8e-91563289f87e
diff --git a/internal/unittest_data.h b/internal/unittest_data.h
index 399742b..4e1e57e 100644
--- a/internal/unittest_data.h
+++ b/internal/unittest_data.h
@@ -38,7 +38,10 @@
 const char* kTeststr_ba_Cyrl = " арналђан бындай ђилми эш тіркињлњ тњјге тапєыр нњшер ителњ ғинуар бєхет именлектє етешлектє ауыл ўќмерџєре хеџмєт юлын ћайлаѓанда";
 const char* kTeststr_be_Cyrl = " а друкаваць іх не было тэхнічна магчыма бліжэй за вільню тым самым часам нямецкае кіраўніцтва прапаноўвала апроч ўвядзення лацінкі яе";
 const char* kTeststr_bg_Cyrl = " а дума попада в състояние на изпитание ключовите думи с предсказана малко под то изискване на страниците за търсене в";
-const char* kTeststr_bh_Deva = " विकिपीडिया इंटरनेट आधारित एक मुक्त ज्ञानकोष परियोजना ह ई विकि के रुप मेँ बा यानी एगो अईसन जाल पृष्ठ जे सभन के संपादन करे के छूट देवेला विकिपीडिया शब्द विकि अउर इनसाइक्लोपीडिया ज्ञानकोष शब्दन के मिला के बनल बा विकिपीडिया एक बहुभाषीय प्रकल्प ह अउर स्वयंसेवकन के सहकार से निर्मित बा जेहु के भी इंटरनेट तक पहुँच बा ऊ विकिपीडिया पर लिख सकत बा अउर लेखन के संपादन कर सकत बा";
+//const char* kTeststr_bh_Deva = " विकिपीडिया इंटरनेट आधारित एक मुक्त ज्ञानकोष परियोजना ह ई विकि के रुप मेँ बा यानी एगो अईसन जाल पृष्ठ जे सभन के संपादन करे के छूट देवेला विकिपीडिया शब्द विकि अउर इनसाइक्लोपीडिया ज्ञानकोष शब्दन के मिला के बनल बा विकिपीडिया एक बहुभाषीय प्रकल्प ह अउर स्वयंसेवकन के सहकार से निर्मित बा जेहु के भी इंटरनेट तक पहुँच बा ऊ विकिपीडिया पर लिख सकत बा अउर लेखन के संपादन कर सकत बा";
+// From 10% testing part of new lang=bh scrape
+const char* kTeststr_bh_Deva = "काल में उनका हमला से बचे खाती एहिजा भाग के अइले आ भोजपुर नाम से नगर बसवले. एकरा बारे में विस्तार से जानकारी नीचे दीहल गइल बा. बाकिर आश्चर्यजनक रूप से मालवा के राजा भोज के बिहार आवे आ भोजपुर नगर बसावे आ चाहे भोजपुरी के साथे उनकर कवनो संबंध होखे के कवनो जानकारी भोपाल के भोज संस्थान आ चाहे मध्य प्रदेश के इतिहासकार लोगन के तनिको नइखे. हालांकि ऊ सब लोग एह बात के मानत बा कि एकरा बारे में अबहीं तकले मूर्ति बनवइलें. राजा भोज के जवना जगहा पऽ वाग्देवी के दर्शन भइल रहे, ओही स्थान पऽ एह मूर्ति के स्थापना कइल गइल. अब अगर एह मंदिर के एह शिलालेख के तस्वीर (पृष्ठ संख्या 33 पऽ प्रकाशित) रउआ धेयान से देखीं तऽ एकरा पऽ कैथी लिपि में -सीताराम- लिखल साफ लउकत बा. कैथी भोजपुरी के बहुत प्रचलित लिपि रहल बिया. एकरा बारे में कवनो शंका संदेह बिहार-यूपी के जानकार लोगन में नइखे. एल. एस. एस. वो माले के लिखल पढ़ीं ";
+
 const char* kTeststr_bi_Latn = " king wantaem nomo hem i sakem setan mo ol rabis enjel blong hem oli aot long heven oli kamdaon long wol taswe ol samting oli kam nogud olgeta long wol ya stat long revelesen ol faet kakae i sot ol sik mo fasin blong brekem loa oli kam antap olgeta samting";
 const char* kTeststr_blu_Latn = " Kuv hlub koj txawm lub ntuj yuav si ntshi nphaus los kuv tsis ua siab nkaug txawm ntiab teb yuav si ntshi nphaus los kuv tseem ua lon tsaug vim kuv hlub koj tag lub siab";
 const char* kTeststr_blu_Latn2 = "Kuv hnov Txhiaj Xeeb Vaj, co-owner of Hmong Village Shopping Center, hais ua hnub ua hmo tias kom Hmoob yuav tsum txhawb Hmoob thiab listed cov mini-shops uas nyob rau hauv nws lub MALL txhua txhua kom sawv daws mus txhawb, tiam sis uas cas zaum twg twb pom nws mus kav kiav hauv taj laj qhabmeem (Sun Foods) xwb tiag. Nag hmo kuv pom nws mus shopping nrog nws poj niam hauv Sun Foods. Thaum tawm mus txog nraum parking lot kuv thiaj txhob txwm mus ze ze seb ua li nws mus yuav dab tsi tiag, thiab seb tej uas nws yuav ntawd puas muaj nyob ntawm tej kiab khw Hmoob. Surprised!!! Vuag.... txhua yam nws yuav hauv Sun Foods peb Hmoob cov khw yeej muaj tag nrho. Peb niaj hnub nqua hu kom Hmoob yuav tsum pab Hmoob yog pab li no lod?";
@@ -46,7 +49,10 @@
 const char* kTeststr_bo_Tibt = " གང ནི ཀུན ལ སྦྱར པ དང ཅན ལྡན བདག པོའི སྒྲ ག ད བ ས ན མ པ ང འ ར ལ མཐའ མེད པ བདག པོའི སྒྲ ལ པ ཉིད དོ མ མི མིན";
 const char* kTeststr_br_Latn = " a chom met leuskel a ra e blas da jack irons dilabour hag aet kuit eus what is this dibab a reont da c houde michael beinhorn evit produiñ an trede pladenn kavet e vez ar ganaouennoù buhan ha buhan ganto setu stummet ar bladenn adkavet e vez enni funk";
 const char* kTeststr_bs_Cyrl = "историја босне књ историја босне књ историја босне књ историја босне књ ";
-const char* kTeststr_bs_Latn = " a radi bržeg rada pošto rom radi sporije nego ram izvorni rom se isključuje a dio ram a se rezerviše te se u njega ne ploča procesor ram memorija grafička kartica zvučna kartica modem mrežna kartica napojna jedinica uređaji za pohranjivanje";
+//const char* kTeststr_bs_Latn = " a radi bržeg rada pošto rom radi sporije nego ram izvorni rom se isključuje a dio ram a se rezerviše te se u njega ne ploča procesor ram memorija grafička kartica zvučna kartica modem mrežna kartica napojna jedinica uređaji za pohranjivanje";
+// From 10% testing part of new lang=bs scrape
+const char* kTeststr_bs_Latn = "Novi predsjednik Mešihata Islamske zajednice u Srbiji (IZuS) i muftija dr. Mevlud ef. Dudić izjavio je u intervjuu za Anadolu Agency (AA) kako je uvjeren da će doći do vraćanja jedinstva među muslimanima i unutar Islamske zajednice na prostoru Sandžaka, te da je njegova ruka pružena za povratak svih u okrilje Islamske zajednice u Srbiji nakon skoro sedam godina podjela u tom dijelu Srbije. Dudić je za predsjednika Mešihata IZ u Srbiji izabran 4. januara, a zvanična inauguracija će biti obavljena u prvoj polovini februara. Kako se očekuje, prisustvovat će joj i reisu-l-ulema Islamske zajednice u Srbiji Husein ef. Kavazović koji će i zvanično promovirati Dudića u novog prvog čovjeka IZ u Srbiji. Dudić će danas boraviti u prvoj zvaničnoj posjeti reisu Kavazoviću, što je njegov privi simbolični potez nakon imenovanja. ";
+
 const char* kTeststr_ca_Latn = "al final en un únic lloc nhorabona l correu electrònic està concebut com a eina de productivitat aleshores per què perdre el temps arxivant missatges per després intentar recordar on els veu desar i per què heu d eliminar missatges importants per l";
 const char* kTeststr_ceb_Latn = "Ang Sugbo usa sa mga labing ugmad nga lalawigan sa nasod. Kini ang sentro sa komersyo, edukasyon ug industriya sa sentral ug habagatang dapit sa kapupod-an. Ang mipadayag sa Sugbo isip ikapito nga labing nindot nga pulo sa , ang nag-inusarang pulo sa Pilipinas nga napasidunggan sa maong magasin sukad pa sa tuig";
 const char* kTeststr_ceb_Latn2 = "Ang mga komyun sa Pransiya duol-duol sa inkorporadong mga lungsod ug mga dakbayan sa Estados Unidos. Wala kini susamang istruktura sa Hiniusang Gingharian (UK) tungod kay ang estado niini taliwala sa di-metropolitan nga distrito ug sa sibil nga parokya. Wala usab kini susamang istruktura sa Pilipinas.";
@@ -87,7 +93,10 @@
 const char* kTeststr_hu_Latn = " a felhasználóim a google azonosító szöveget ikor látják a felhasználóim a google azonosító szöveget felhasználók a google azonosító szöveget fogják látni minden tranzakció után ha a vásárlását regisztrációját oldalunk";
 const char* kTeststr_hy_Armn = " ա յ եվ նա հիացած աչքերով նայում է հինգհարկանի շենքի տարօրինակ փոքրիկ քառակուսի պատուհաններին դեռ մենք շատ ենք հետամնաց ասում է նա այսպես է";
 const char* kTeststr_ia_Latn = " super le sitos que tu visita isto es necessari pro render disponibile alcun functionalitates del barra de utensiles a fin que nos pote monstrar informationes ulterior super un sito le barra de utensiles debe dicer a nos le";
-const char* kTeststr_id_Latn = "Geng: Pengembaraan Bermula adalah film animasi 3D CGI pertama yang diproduksi di Malaysia. Film ini dibuat oleh Les' Copaque Production (LCP) dan dirilis di bioskop-bioskop seluruh Malaysia pada 12 Februari 2009. Film Geng pertama kali diluncurkan dalam sebuah acara peluncuran pada 11 September 2007 bersama dengan serial animasi pendek Upin & Ipin yang berhubungan dengan film tersebut. Pembuatan film ini didukung oleh berbagai pihak seperti Kementerian Sains, Teknologi dan Inovasi Malaysia (MOSTI) dengan memberi bantuan berupa dana sebesar RM1 juta.";
+//const char* kTeststr_id_Latn = "Geng: Pengembaraan Bermula adalah film animasi 3D CGI pertama yang diproduksi di Malaysia. Film ini dibuat oleh Les' Copaque Production (LCP) dan dirilis di bioskop-bioskop seluruh Malaysia pada 12 Februari 2009. Film Geng pertama kali diluncurkan dalam sebuah acara peluncuran pada 11 September 2007 bersama dengan serial animasi pendek Upin & Ipin yang berhubungan dengan film tersebut. Pembuatan film ini didukung oleh berbagai pihak seperti Kementerian Sains, Teknologi dan Inovasi Malaysia (MOSTI) dengan memberi bantuan berupa dana sebesar RM1 juta.";
+// From 10% testing part of new lang=id scrape
+const char* kTeststr_id_Latn = "berdiri setelah pengurusnya yang berusia 83 tahun, Fayzrahman Satarov, mendeklarasikan diri sebagai nabi dan rumahnya sebagai negara Islam Satarov digambarkan sebagai mantan ulama Islam  tahun 1970-an. Pengikutnya didorong membaca manuskripnya dan kebanyakan dilarang meninggalkan tempat persembunyian bawah tanah di dasar gedung delapan lantai mereka. Jaksa membuka penyelidikan kasus kriminal pada kelompok itu dan menyatakan akan membubarkan kelompok kalau tetap melakukan kegiatan ilegal seperti mencegah anggotanya mencari bantuan medis atau pendidikan. Sampai sekarang pihak berwajib belum melakukan penangkapan meskipun polisi mencurigai adanya tindak kekerasan pada anak. Pengadilan selanjutnya akan memutuskan apakah anak-anak diizinkan tetap tinggal dengan orang tua mereka. Kazan yang berada sekitar 800 kilometer di timur Moskow merupakan wilayah Tatarstan yang";
+
 const char* kTeststr_ie_Latn = " abhorre exceptiones in li derivation plu cardinal por un l i es li regularità del flexion conjugation ples comparar latino sine flexione e li antiqui projectes naturalistic queles have quasi null regules de derivation ma si on nu examina li enunciationes";
 const char* kTeststr_ig_Latn = "Chineke bụ aha ọzọ ndï omenala Igbo kpọro Chukwu. Mgbe ndị bekee bịara, ha mee ya nke ndi Christian. N'echiche ndi ekpere chi Omenala Ndi Igbo, Christianity, Judaism, ma Islam, Chineke nwere ọtụtụ utu aha, ma nwee nanị otu aha. Ụzọ abụọ e si akpọ aha ahụ bụ Jehovah ma Ọ bụ Yahweh. Na ọtụtụ Akwụkwọ Nsọ, e wepụla aha Chineke ma jiri utu aha bụ Onyenwe Anyị ma ọ bụ Chineke dochie ya. Ma mgbe e dere akwụkwọ nsọ, aha ahụ bụ Jehova pụtara n’ime ya, ihe dị ka ugboro pụkụ asaa(7,000).";
 const char* kTeststr_ik_Latn = " kuubuuraqabniqsuq ataruamik colville mi aasii tavrani siku kilaabman sulukpaukkat makua niksisugrufagivut tavrani sunaimña atifa quaqqat ii quaqqat aasii ukiabmagu utiqhuta tamaufa utqiabvifñun aasiiñ tatpaaffaqapta tuvaaqatinifarufa aasiiñ";
@@ -128,7 +137,11 @@
 const char* kTeststr_mn_Cyrl = " а боловсронгуй болгох орон нутгийн ажил үйлсийг уялдуулж зохицуулах дүрэм журам боловсруулах орон нутгийн өмч хөрөнгө санхүүгийн";
 const char* kTeststr_mn_Mong = "ᠦᠭᠡ ᠵᠢᠨ ᠴᠢᠨᠭ᠎ᠠ ᠬᠦᠨᠳᠡᠢ ᠵᠢ ᠢᠯᠭᠠᠬᠣ";
 const char* kTeststr_mr_Deva = "हैदराबाद  उच्चार ऐका (सहाय्य·माहिती)तेलुगू: హైదరాబాదు , उर्दू: حیدر آباد हे भारतातील आंध्र प्रदेश राज्याच्या राजधानीचे शहर आहे. हैदराबादची लोकसंख्या ७७ लाख ४० हजार ३३४ आहे. मोत्यांचे शहर अशी एकेकाळी ओळख असलेल्या या शहराला ऐतिहासिक, सांस्कृतिक आणि स्थापत्यशास्त्रीय वारसा लाभला आहे. १९९० नंतर शिक्षण आणि माहिती तंत्रज्ञान त्याचप्रमाणे औषधनिर्मिती आणि जैवतंत्रज्ञान क्षेत्रातील उद्योगधंद्यांची वाढ शहरात झाली. दक्षिण मध्य भारतातील पर्यटन आणि तेलुगू चित्रपटनिर्मितीचे हैदराबाद हे केंद्र आहे";
-const char* kTeststr_ms_Latn = "daripada dirinya hirako shinji seorang pemuda merujuk diri mereka sebagai vizard shinji telah cuba untuk menyakinkan ichigo untuk menyertai kumpulan mereka mengatakan bahawa hanya dia sahaja yang mampu mengajar ichigo teknik untuk mengawal hollow";
+//const char* kTeststr_ms_Latn = "daripada dirinya hirako shinji seorang pemuda merujuk diri mereka sebagai vizard shinji telah cuba untuk menyakinkan ichigo untuk menyertai kumpulan mereka mengatakan bahawa hanya dia sahaja yang mampu mengajar ichigo teknik untuk mengawal hollow";
+// From 10% testing part of new lang=ms scrape
+const char* kTeststr_ms_Latn = "pengampunan beramai-ramai supaya mereka pulang ke rumah masing-masing. Orang-orang besarnya enggan mengiktiraf sultan yang dilantik oleh Belanda sebagai Yang DiPertuan Selangor. Orang ramai pula tidak mahu menjalankan perniagaan bijih timah dengan Belanda, selagi raja yang berhak tidak ditabalkan. Perdagang yang lain dibekukan terus kerana untuk membalas jasa beliau yang membantu Belanda menentang Riau, Johor dan Selangor. Di antara tiga orang Sultan juga dipandang oleh rakyat sebagai seorang sultan yang paling gigih. 1 | 2 SULTAN Sebagai ganti Sultan Ibrahim ditabalkan Raja Muhammad iaitu Raja Muda. Walaupun baginda bukan anak isteri pertama bergelar Sultan Muhammad bersemayam di Kuala Selangor juga. Pentadbiran baginda yang lemah itu menyebabkan Kuala Selangor menjadi sarang ioleh Cina di Lukut tidak diambil tindakan, sedangkan baginda sendiri banyak berhutang kepada 1";
+
+
 const char* kTeststr_ms_Latn2 = "bilik sebelah berkata julai pada pm ladymariah hmm sume ni terpulang kepada individu mungkin anda bernasib baik selama ini dalam membeli hp yang bagus deli berkata julai pada pm walaupun bukan bahsa baku tp tetap bahasa melayu kan perubahan boleh dibuat";
 const char* kTeststr_mt_Latn = " ata ikteb messaġġ lil indirizzi differenti billi tagħżilhom u tagħfas il buttuna ikteb żid numri tfittxijja tal kotba mur print home kotba minn pagni ghal pagna minn ghall ktieb ta aċċessa stieden habib iehor grazzi it tim tal gruppi google";
 const char* kTeststr_my_Latn = " jyk ef oif gawgodcsifayvdrfhrnf bmawgrsm topf dsvj g mail tamumif avhvm atmif txjwgif yxrqhk avhvm efae m pwifavhvm ef ufkyfwdky help center odkyvmyg drsm ar avh dswjhar cgef rsm udkawdkifygw f tajzawgudk smedkifygw f jyd awmh g mail cool features rsm";
@@ -237,6 +250,7 @@
 // This can be used to cross-check the build date of the main quadgram table
 const char* kTeststr_version = "qpdbmrmxyzptlkuuddlrlrbas las les qpdbmrmxyzptlkuuddlrlrbas el la qpdbmrmxyzptlkuuddlrlrbas";
 
+
 #else
 
 
@@ -253,7 +267,10 @@
 const char* kTeststr_ba_Cyrl = " \xD0\xB0\xD1\x80\xD0\xBD\xD0\xB0\xD0\xBB\xD1\x92\xD0\xB0\xD0\xBD \xD0\xB1\xD1\x8B\xD0\xBD\xD0\xB4\xD0\xB0\xD0\xB9 \xD1\x92\xD0\xB8\xD0\xBB\xD0\xBC\xD0\xB8 \xD1\x8D\xD1\x88 \xD1\x82\xD1\x96\xD1\x80\xD0\xBA\xD0\xB8\xD1\x9A\xD0\xBB\xD1\x9A \xD1\x82\xD1\x9A\xD1\x98\xD0\xB3\xD0\xB5 \xD1\x82\xD0\xB0\xD0\xBF\xD1\x94\xD1\x8B\xD1\x80 \xD0\xBD\xD1\x9A\xD1\x88\xD0\xB5\xD1\x80 \xD0\xB8\xD1\x82\xD0\xB5\xD0\xBB\xD1\x9A \xD2\x93\xD0\xB8\xD0\xBD\xD1\x83\xD0\xB0\xD1\x80 \xD0\xB1\xD1\x94\xD1\x85\xD0\xB5\xD1\x82 \xD0\xB8\xD0\xBC\xD0\xB5\xD0\xBD\xD0\xBB\xD0\xB5\xD0\xBA\xD1\x82\xD1\x94 \xD0\xB5\xD1\x82\xD0\xB5\xD1\x88\xD0\xBB\xD0\xB5\xD0\xBA\xD1\x82\xD1\x94 \xD0\xB0\xD1\x83\xD1\x8B\xD0\xBB \xD1\x9E\xD1\x9C\xD0\xBC\xD0\xB5\xD1\x80\xD1\x9F\xD1\x94\xD1\x80\xD0\xB5 \xD1\x85\xD0\xB5\xD1\x9F\xD0\xBC\xD1\x94\xD1\x82 \xD1\x8E\xD0\xBB\xD1\x8B\xD0\xBD \xD1\x9B\xD0\xB0\xD0\xB9\xD0\xBB\xD0\xB0\xD1\x93\xD0\xB0\xD0\xBD\xD0\xB4\xD0\xB0";
 const char* kTeststr_be_Cyrl = " \xD0\xB0 \xD0\xB4\xD1\x80\xD1\x83\xD0\xBA\xD0\xB0\xD0\xB2\xD0\xB0\xD1\x86\xD1\x8C \xD1\x96\xD1\x85 \xD0\xBD\xD0\xB5 \xD0\xB1\xD1\x8B\xD0\xBB\xD0\xBE \xD1\x82\xD1\x8D\xD1\x85\xD0\xBD\xD1\x96\xD1\x87\xD0\xBD\xD0\xB0 \xD0\xBC\xD0\xB0\xD0\xB3\xD1\x87\xD1\x8B\xD0\xBC\xD0\xB0 \xD0\xB1\xD0\xBB\xD1\x96\xD0\xB6\xD1\x8D\xD0\xB9 \xD0\xB7\xD0\xB0 \xD0\xB2\xD1\x96\xD0\xBB\xD1\x8C\xD0\xBD\xD1\x8E \xD1\x82\xD1\x8B\xD0\xBC \xD1\x81\xD0\xB0\xD0\xBC\xD1\x8B\xD0\xBC \xD1\x87\xD0\xB0\xD1\x81\xD0\xB0\xD0\xBC \xD0\xBD\xD1\x8F\xD0\xBC\xD0\xB5\xD1\x86\xD0\xBA\xD0\xB0\xD0\xB5 \xD0\xBA\xD1\x96\xD1\x80\xD0\xB0\xD1\x9E\xD0\xBD\xD1\x96\xD1\x86\xD1\x82\xD0\xB2\xD0\xB0 \xD0\xBF\xD1\x80\xD0\xB0\xD0\xBF\xD0\xB0\xD0\xBD\xD0\xBE\xD1\x9E\xD0\xB2\xD0\xB0\xD0\xBB\xD0\xB0 \xD0\xB0\xD0\xBF\xD1\x80\xD0\xBE\xD1\x87 \xD1\x9E\xD0\xB2\xD1\x8F\xD0\xB4\xD0\xB7\xD0\xB5\xD0\xBD\xD0\xBD\xD1\x8F \xD0\xBB\xD0\xB0\xD1\x86\xD1\x96\xD0\xBD\xD0\xBA\xD1\x96 \xD1\x8F\xD0\xB5";
 const char* kTeststr_bg_Cyrl = " \xD0\xB0 \xD0\xB4\xD1\x83\xD0\xBC\xD0\xB0 \xD0\xBF\xD0\xBE\xD0\xBF\xD0\xB0\xD0\xB4\xD0\xB0 \xD0\xB2 \xD1\x81\xD1\x8A\xD1\x81\xD1\x82\xD0\xBE\xD1\x8F\xD0\xBD\xD0\xB8\xD0\xB5 \xD0\xBD\xD0\xB0 \xD0\xB8\xD0\xB7\xD0\xBF\xD0\xB8\xD1\x82\xD0\xB0\xD0\xBD\xD0\xB8\xD0\xB5 \xD0\xBA\xD0\xBB\xD1\x8E\xD1\x87\xD0\xBE\xD0\xB2\xD0\xB8\xD1\x82\xD0\xB5 \xD0\xB4\xD1\x83\xD0\xBC\xD0\xB8 \xD1\x81 \xD0\xBF\xD1\x80\xD0\xB5\xD0\xB4\xD1\x81\xD0\xBA\xD0\xB0\xD0\xB7\xD0\xB0\xD0\xBD\xD0\xB0 \xD0\xBC\xD0\xB0\xD0\xBB\xD0\xBA\xD0\xBE \xD0\xBF\xD0\xBE\xD0\xB4 \xD1\x82\xD0\xBE \xD0\xB8\xD0\xB7\xD0\xB8\xD1\x81\xD0\xBA\xD0\xB2\xD0\xB0\xD0\xBD\xD0\xB5 \xD0\xBD\xD0\xB0 \xD1\x81\xD1\x82\xD1\x80\xD0\xB0\xD0\xBD\xD0\xB8\xD1\x86\xD0\xB8\xD1\x82\xD0\xB5 \xD0\xB7\xD0\xB0 \xD1\x82\xD1\x8A\xD1\x80\xD1\x81\xD0\xB5\xD0\xBD\xD0\xB5 \xD0\xB2";
-const char* kTeststr_bh_Deva = " \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\x87\xE0\xA4\x82\xE0\xA4\x9F\xE0\xA4\xB0\xE0\xA4\xA8\xE0\xA5\x87\xE0\xA4\x9F \xE0\xA4\x86\xE0\xA4\xA7\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA4\xBF\xE0\xA4\xA4 \xE0\xA4\x8F\xE0\xA4\x95 \xE0\xA4\xAE\xE0\xA5\x81\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xA4 \xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\x9E\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA5\x8B\xE0\xA4\xB7 \xE0\xA4\xAA\xE0\xA4\xB0\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA5\x8B\xE0\xA4\x9C\xE0\xA4\xA8\xE0\xA4\xBE \xE0\xA4\xB9 \xE0\xA4\x88 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB0\xE0\xA5\x81\xE0\xA4\xAA \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x81 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA5\x80 \xE0\xA4\x8F\xE0\xA4\x97\xE0\xA5\x8B \xE0\xA4\x85\xE0\xA4\x88\xE0\xA4\xB8\xE0\xA4\xA8 \xE0\xA4\x9C\xE0\xA4\xBE\xE0\xA4\xB2 \xE0\xA4\xAA\xE0\xA5\x83\xE0\xA4\xB7\xE0\xA5\x8D\xE0\xA4\xA0 \xE0\xA4\x9C\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\xAD\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x9B\xE0\xA5\x82\xE0\xA4\x9F \xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB5\xE0\xA5\x87\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xB6\xE0\xA4\xAC\xE0\xA5\x8D\xE0\xA4\xA6 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF \xE0\xA4\x85\xE0\xA4\x89\xE0\xA4\xB0 \xE0\xA4\x87\xE0\xA4\xA8\xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\x87\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB2\xE0\xA5\x8B\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\x9E\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA5\x8B\xE0\xA4\xB7 \xE0\xA4\xB6\xE0\xA4\xAC\xE0\xA5\x8D\xE0\xA4\xA6\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA4\xBF\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAC\xE0\xA4\xA8\xE0\xA4\xB2 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\x8F\xE0\xA4\x95 \xE0\xA4\xAC\xE0\xA4\xB9\xE0\xA5\x81\xE0\xA4\xAD\xE0\xA4\xBE\xE0\xA4\xB7\xE0\xA5\x80\xE0\xA4\xAF \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\x95\xE0\xA4\xB2\xE0\xA5\x8D\xE0\xA4\xAA \xE0\xA4\xB9 \xE0\xA4\x85\xE0\xA4\x89\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA4\xAF\xE0\xA4\x82\xE0\xA4\xB8\xE0\xA5\x87\xE0\xA4\xB5\xE0\xA4\x95\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\xB9\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\xA8\xE0\xA4\xBF\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xAE\xE0\xA4\xBF\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x9C\xE0\xA5\x87\xE0\xA4\xB9\xE0\xA5\x81 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAD\xE0\xA5\x80 \xE0\xA4\x87\xE0\xA4\x82\xE0\xA4\x9F\xE0\xA4\xB0\xE0\xA4\xA8\xE0\xA5\x87\xE0\xA4\x9F \xE0\xA4\xA4\xE0\xA4\x95 \xE0\xA4\xAA\xE0\xA4\xB9\xE0\xA5\x81\xE0\xA4\x81\xE0\xA4\x9A \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x8A \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xAA\xE0\xA4\xB0 \xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\x96 \xE0\xA4\xB8\xE0\xA4\x95\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x85\xE0\xA4\x89\xE0\xA4\xB0 \xE0\xA4\xB2\xE0\xA5\x87\xE0\xA4\x96\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA4\x95\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE";
+//const char* kTeststr_bh_Deva = " \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\x87\xE0\xA4\x82\xE0\xA4\x9F\xE0\xA4\xB0\xE0\xA4\xA8\xE0\xA5\x87\xE0\xA4\x9F \xE0\xA4\x86\xE0\xA4\xA7\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA4\xBF\xE0\xA4\xA4 \xE0\xA4\x8F\xE0\xA4\x95 \xE0\xA4\xAE\xE0\xA5\x81\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xA4 \xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\x9E\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA5\x8B\xE0\xA4\xB7 \xE0\xA4\xAA\xE0\xA4\xB0\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA5\x8B\xE0\xA4\x9C\xE0\xA4\xA8\xE0\xA4\xBE \xE0\xA4\xB9 \xE0\xA4\x88 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB0\xE0\xA5\x81\xE0\xA4\xAA \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x81 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA5\x80 \xE0\xA4\x8F\xE0\xA4\x97\xE0\xA5\x8B \xE0\xA4\x85\xE0\xA4\x88\xE0\xA4\xB8\xE0\xA4\xA8 \xE0\xA4\x9C\xE0\xA4\xBE\xE0\xA4\xB2 \xE0\xA4\xAA\xE0\xA5\x83\xE0\xA4\xB7\xE0\xA5\x8D\xE0\xA4\xA0 \xE0\xA4\x9C\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\xAD\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x9B\xE0\xA5\x82\xE0\xA4\x9F \xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB5\xE0\xA5\x87\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xB6\xE0\xA4\xAC\xE0\xA5\x8D\xE0\xA4\xA6 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF \xE0\xA4\x85\xE0\xA4\x89\xE0\xA4\xB0 \xE0\xA4\x87\xE0\xA4\xA8\xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\x87\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB2\xE0\xA5\x8B\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\x9E\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA5\x8B\xE0\xA4\xB7 \xE0\xA4\xB6\xE0\xA4\xAC\xE0\xA5\x8D\xE0\xA4\xA6\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA4\xBF\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAC\xE0\xA4\xA8\xE0\xA4\xB2 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\x8F\xE0\xA4\x95 \xE0\xA4\xAC\xE0\xA4\xB9\xE0\xA5\x81\xE0\xA4\xAD\xE0\xA4\xBE\xE0\xA4\xB7\xE0\xA5\x80\xE0\xA4\xAF \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\x95\xE0\xA4\xB2\xE0\xA5\x8D\xE0\xA4\xAA \xE0\xA4\xB9 \xE0\xA4\x85\xE0\xA4\x89\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA4\xAF\xE0\xA4\x82\xE0\xA4\xB8\xE0\xA5\x87\xE0\xA4\xB5\xE0\xA4\x95\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\xB9\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\xA8\xE0\xA4\xBF\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xAE\xE0\xA4\xBF\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x9C\xE0\xA5\x87\xE0\xA4\xB9\xE0\xA5\x81 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAD\xE0\xA5\x80 \xE0\xA4\x87\xE0\xA4\x82\xE0\xA4\x9F\xE0\xA4\xB0\xE0\xA4\xA8\xE0\xA5\x87\xE0\xA4\x9F \xE0\xA4\xA4\xE0\xA4\x95 \xE0\xA4\xAA\xE0\xA4\xB9\xE0\xA5\x81\xE0\xA4\x81\xE0\xA4\x9A \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x8A \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA5\x80\xE0\xA4\xA1\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xAA\xE0\xA4\xB0 \xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\x96 \xE0\xA4\xB8\xE0\xA4\x95\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x85\xE0\xA4\x89\xE0\xA4\xB0 \xE0\xA4\xB2\xE0\xA5\x87\xE0\xA4\x96\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA4\x95\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE";
+// From 10% testing part of new lang=bh scrape
+const char* kTeststr_bh_Deva = "\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB2 \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x82 \xE0\xA4\x89\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA4\xBE \xE0\xA4\xB9\xE0\xA4\xAE\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\xAC\xE0\xA4\x9A\xE0\xA5\x87 \xE0\xA4\x96\xE0\xA4\xBE\xE0\xA4\xA4\xE0\xA5\x80 \xE0\xA4\x8F\xE0\xA4\xB9\xE0\xA4\xBF\xE0\xA4\x9C\xE0\xA4\xBE \xE0\xA4\xAD\xE0\xA4\xBE\xE0\xA4\x97 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x85\xE0\xA4\x87\xE0\xA4\xB2\xE0\xA5\x87 \xE0\xA4\x86 \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C\xE0\xA4\xAA\xE0\xA5\x81\xE0\xA4\xB0 \xE0\xA4\xA8\xE0\xA4\xBE\xE0\xA4\xAE \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\xA8\xE0\xA4\x97\xE0\xA4\xB0 \xE0\xA4\xAC\xE0\xA4\xB8\xE0\xA4\xB5\xE0\xA4\xB2\xE0\xA5\x87. \xE0\xA4\x8F\xE0\xA4\x95\xE0\xA4\xB0\xE0\xA4\xBE \xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x82 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xA4\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\x9C\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA5\x80 \xE0\xA4\xA8\xE0\xA5\x80\xE0\xA4\x9A\xE0\xA5\x87 \xE0\xA4\xA6\xE0\xA5\x80\xE0\xA4\xB9\xE0\xA4\xB2 \xE0\xA4\x97\xE0\xA4\x87\xE0\xA4\xB2 \xE0\xA4\xAC\xE0\xA4\xBE. \xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\x95\xE0\xA4\xBF\xE0\xA4\xB0 \xE0\xA4\x86\xE0\xA4\xB6\xE0\xA5\x8D\xE0\xA4\x9A\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\x9C\xE0\xA4\xA8\xE0\xA4\x95 \xE0\xA4\xB0\xE0\xA5\x82\xE0\xA4\xAA \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xB2\xE0\xA4\xB5\xE0\xA4\xBE \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C\xE0\xA4\xBE \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAC\xE0\xA4\xBF\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\x86\xE0\xA4\xB5\xE0\xA5\x87 \xE0\xA4\x86 \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C\xE0\xA4\xAA\xE0\xA5\x81\xE0\xA4\xB0 \xE0\xA4\xA8\xE0\xA4\x97\xE0\xA4\xB0 \xE0\xA4\xAC\xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\xB5\xE0\xA5\x87 \xE0\xA4\x86 \xE0\xA4\x9A\xE0\xA4\xBE\xE0\xA4\xB9\xE0\xA5\x87 \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C\xE0\xA4\xAA\xE0\xA5\x81\xE0\xA4\xB0\xE0\xA5\x80 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\xA5\xE0\xA5\x87 \xE0\xA4\x89\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA4\xB0 \xE0\xA4\x95\xE0\xA4\xB5\xE0\xA4\xA8\xE0\xA5\x8B \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xAC\xE0\xA4\x82\xE0\xA4\xA7 \xE0\xA4\xB9\xE0\xA5\x8B\xE0\xA4\x96\xE0\xA5\x87 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x95\xE0\xA4\xB5\xE0\xA4\xA8\xE0\xA5\x8B \xE0\xA4\x9C\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA5\x80 \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xB2 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xA5\xE0\xA4\xBE\xE0\xA4\xA8 \xE0\xA4\x86 \xE0\xA4\x9A\xE0\xA4\xBE\xE0\xA4\xB9\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA4\xA7\xE0\xA5\x8D\xE0\xA4\xAF \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB6 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x87\xE0\xA4\xA4\xE0\xA4\xBF\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xB8\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\xB2\xE0\xA5\x8B\xE0\xA4\x97\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xA4\xE0\xA4\xA8\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA5\x8B \xE0\xA4\xA8\xE0\xA4\x87\xE0\xA4\x96\xE0\xA5\x87. \xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xB2\xE0\xA4\xBE\xE0\xA4\x82\xE0\xA4\x95\xE0\xA4\xBF \xE0\xA4\x8A \xE0\xA4\xB8\xE0\xA4\xAC \xE0\xA4\xB2\xE0\xA5\x8B\xE0\xA4\x97 \xE0\xA4\x8F\xE0\xA4\xB9 \xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xA4 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE \xE0\xA4\x95\xE0\xA4\xBF \xE0\xA4\x8F\xE0\xA4\x95\xE0\xA4\xB0\xE0\xA4\xBE \xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x82 \xE0\xA4\x85\xE0\xA4\xAC\xE0\xA4\xB9\xE0\xA5\x80\xE0\xA4\x82 \xE0\xA4\xA4\xE0\xA4\x95\xE0\xA4\xB2\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA5\x82\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xA4\xE0\xA4\xBF \xE0\xA4\xAC\xE0\xA4\xA8\xE0\xA4\xB5\xE0\xA4\x87\xE0\xA4\xB2\xE0\xA5\x87\xE0\xA4\x82. \xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C\xE0\xA4\xBE \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x9C\xE0\xA4\xB5\xE0\xA4\xA8\xE0\xA4\xBE \xE0\xA4\x9C\xE0\xA4\x97\xE0\xA4\xB9\xE0\xA4\xBE \xE0\xA4\xAA\xE0\xA4\xBD \xE0\xA4\xB5\xE0\xA4\xBE\xE0\xA4\x97\xE0\xA5\x8D\xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB5\xE0\xA5\x80 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xA6\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xB6\xE0\xA4\xA8 \xE0\xA4\xAD\xE0\xA4\x87\xE0\xA4\xB2 \xE0\xA4\xB0\xE0\xA4\xB9\xE0\xA5\x87, \xE0\xA4\x93\xE0\xA4\xB9\xE0\xA5\x80 \xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xA5\xE0\xA4\xBE\xE0\xA4\xA8 \xE0\xA4\xAA\xE0\xA4\xBD \xE0\xA4\x8F\xE0\xA4\xB9 \xE0\xA4\xAE\xE0\xA5\x82\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xA4\xE0\xA4\xBF \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xA5\xE0\xA4\xBE\xE0\xA4\xAA\xE0\xA4\xA8\xE0\xA4\xBE \xE0\xA4\x95\xE0\xA4\x87\xE0\xA4\xB2 \xE0\xA4\x97\xE0\xA4\x87\xE0\xA4\xB2. \xE0\xA4\x85\xE0\xA4\xAC \xE0\xA4\x85\xE0\xA4\x97\xE0\xA4\xB0 \xE0\xA4\x8F\xE0\xA4\xB9 \xE0\xA4\xAE\xE0\xA4\x82\xE0\xA4\xA6\xE0\xA4\xBF\xE0\xA4\xB0 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x8F\xE0\xA4\xB9 \xE0\xA4\xB6\xE0\xA4\xBF\xE0\xA4\xB2\xE0\xA4\xBE\xE0\xA4\xB2\xE0\xA5\x87\xE0\xA4\x96 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xA4\xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA5\x80\xE0\xA4\xB0 (\xE0\xA4\xAA\xE0\xA5\x83\xE0\xA4\xB7\xE0\xA5\x8D\xE0\xA4\xA0 \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\x96\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE 33 \xE0\xA4\xAA\xE0\xA4\xBD \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB6\xE0\xA4\xBF\xE0\xA4\xA4) \xE0\xA4\xB0\xE0\xA4\x89\xE0\xA4\x86 \xE0\xA4\xA7\xE0\xA5\x87\xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\xA8 \xE0\xA4\xB8\xE0\xA5\x87 \xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\x96\xE0\xA5\x80\xE0\xA4\x82 \xE0\xA4\xA4\xE0\xA4\xBD \xE0\xA4\x8F\xE0\xA4\x95\xE0\xA4\xB0\xE0\xA4\xBE \xE0\xA4\xAA\xE0\xA4\xBD \xE0\xA4\x95\xE0\xA5\x88\xE0\xA4\xA5\xE0\xA5\x80 \xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA4\xBF \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x82 -\xE0\xA4\xB8\xE0\xA5\x80\xE0\xA4\xA4\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xAE- \xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\x96\xE0\xA4\xB2 \xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\xAB \xE0\xA4\xB2\xE0\xA4\x89\xE0\xA4\x95\xE0\xA4\xA4 \xE0\xA4\xAC\xE0\xA4\xBE. \xE0\xA4\x95\xE0\xA5\x88\xE0\xA4\xA5\xE0\xA5\x80 \xE0\xA4\xAD\xE0\xA5\x8B\xE0\xA4\x9C\xE0\xA4\xAA\xE0\xA5\x81\xE0\xA4\xB0\xE0\xA5\x80 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xAC\xE0\xA4\xB9\xE0\xA5\x81\xE0\xA4\xA4 \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\x9A\xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\xA4 \xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\xAA\xE0\xA4\xBF \xE0\xA4\xB0\xE0\xA4\xB9\xE0\xA4\xB2 \xE0\xA4\xAC\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE. \xE0\xA4\x8F\xE0\xA4\x95\xE0\xA4\xB0\xE0\xA4\xBE \xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x82 \xE0\xA4\x95\xE0\xA4\xB5\xE0\xA4\xA8\xE0\xA5\x8B \xE0\xA4\xB6\xE0\xA4\x82\xE0\xA4\x95\xE0\xA4\xBE \xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB9 \xE0\xA4\xAC\xE0\xA4\xBF\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xB0-\xE0\xA4\xAF\xE0\xA5\x82\xE0\xA4\xAA\xE0\xA5\x80 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\x9C\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\xB2\xE0\xA5\x8B\xE0\xA4\x97\xE0\xA4\xA8 \xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\x82 \xE0\xA4\xA8\xE0\xA4\x87\xE0\xA4\x96\xE0\xA5\x87. \xE0\xA4\x8F\xE0\xA4\xB2. \xE0\xA4\x8F\xE0\xA4\xB8. \xE0\xA4\x8F\xE0\xA4\xB8. \xE0\xA4\xB5\xE0\xA5\x8B \xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xB2\xE0\xA5\x87 \xE0\xA4\x95\xE0\xA5\x87 \xE0\xA4\xB2\xE0\xA4\xBF\xE0\xA4\x96\xE0\xA4\xB2 \xE0\xA4\xAA\xE0\xA4\xA2\xE0\xA4\xBC\xE0\xA5\x80\xE0\xA4\x82 ";
+
 const char* kTeststr_bi_Latn = " king wantaem nomo hem i sakem setan mo ol rabis enjel blong hem oli aot long heven oli kamdaon long wol taswe ol samting oli kam nogud olgeta long wol ya stat long revelesen ol faet kakae i sot ol sik mo fasin blong brekem loa oli kam antap olgeta samting";
 const char* kTeststr_blu_Latn = " Kuv hlub koj txawm lub ntuj yuav si ntshi nphaus los kuv tsis ua siab nkaug txawm ntiab teb yuav si ntshi nphaus los kuv tseem ua lon tsaug vim kuv hlub koj tag lub siab";
 const char* kTeststr_blu_Latn2 = "Kuv hnov Txhiaj Xeeb Vaj, co-owner of Hmong Village Shopping Center, hais ua hnub ua hmo tias kom Hmoob yuav tsum txhawb Hmoob thiab listed cov mini-shops uas nyob rau hauv nws lub MALL txhua txhua kom sawv daws mus txhawb, tiam sis uas cas zaum twg twb pom nws mus kav kiav hauv taj laj qhabmeem (Sun Foods) xwb tiag. Nag hmo kuv pom nws mus shopping nrog nws poj niam hauv Sun Foods. Thaum tawm mus txog nraum parking lot kuv thiaj txhob txwm mus ze ze seb ua li nws mus yuav dab tsi tiag, thiab seb tej uas nws yuav ntawd puas muaj nyob ntawm tej kiab khw Hmoob. Surprised!!! Vuag.... txhua yam nws yuav hauv Sun Foods peb Hmoob cov khw yeej muaj tag nrho. Peb niaj hnub nqua hu kom Hmoob yuav tsum pab Hmoob yog pab li no lod?";
@@ -261,7 +278,10 @@
 const char* kTeststr_bo_Tibt = " \xE0\xBD\x82\xE0\xBD\x84 \xE0\xBD\x93\xE0\xBD\xB2 \xE0\xBD\x80\xE0\xBD\xB4\xE0\xBD\x93 \xE0\xBD\xA3 \xE0\xBD\xA6\xE0\xBE\xA6\xE0\xBE\xB1\xE0\xBD\xA2 \xE0\xBD\x94 \xE0\xBD\x91\xE0\xBD\x84 \xE0\xBD\x85\xE0\xBD\x93 \xE0\xBD\xA3\xE0\xBE\xA1\xE0\xBD\x93 \xE0\xBD\x96\xE0\xBD\x91\xE0\xBD\x82 \xE0\xBD\x94\xE0\xBD\xBC\xE0\xBD\xA0\xE0\xBD\xB2 \xE0\xBD\xA6\xE0\xBE\x92\xE0\xBE\xB2 \xE0\xBD\x82 \xE0\xBD\x91 \xE0\xBD\x96 \xE0\xBD\xA6 \xE0\xBD\x93 \xE0\xBD\x98 \xE0\xBD\x94 \xE0\xBD\x84 \xE0\xBD\xA0 \xE0\xBD\xA2 \xE0\xBD\xA3 \xE0\xBD\x98\xE0\xBD\x90\xE0\xBD\xA0 \xE0\xBD\x98\xE0\xBD\xBA\xE0\xBD\x91 \xE0\xBD\x94 \xE0\xBD\x96\xE0\xBD\x91\xE0\xBD\x82 \xE0\xBD\x94\xE0\xBD\xBC\xE0\xBD\xA0\xE0\xBD\xB2 \xE0\xBD\xA6\xE0\xBE\x92\xE0\xBE\xB2 \xE0\xBD\xA3 \xE0\xBD\x94 \xE0\xBD\x89\xE0\xBD\xB2\xE0\xBD\x91 \xE0\xBD\x91\xE0\xBD\xBC \xE0\xBD\x98 \xE0\xBD\x98\xE0\xBD\xB2 \xE0\xBD\x98\xE0\xBD\xB2\xE0\xBD\x93";
 const char* kTeststr_br_Latn = " a chom met leuskel a ra e blas da jack irons dilabour hag aet kuit eus what is this dibab a reont da c houde michael beinhorn evit produi\xC3\xB1 an trede pladenn kavet e vez ar ganaouenno\xC3\xB9 buhan ha buhan ganto setu stummet ar bladenn adkavet e vez enni funk";
 const char* kTeststr_bs_Cyrl = "\xD0\xB8\xD1\x81\xD1\x82\xD0\xBE\xD1\x80\xD0\xB8\xD1\x98\xD0\xB0 \xD0\xB1\xD0\xBE\xD1\x81\xD0\xBD\xD0\xB5 \xD0\xBA\xD1\x9A \xD0\xB8\xD1\x81\xD1\x82\xD0\xBE\xD1\x80\xD0\xB8\xD1\x98\xD0\xB0 \xD0\xB1\xD0\xBE\xD1\x81\xD0\xBD\xD0\xB5 \xD0\xBA\xD1\x9A \xD0\xB8\xD1\x81\xD1\x82\xD0\xBE\xD1\x80\xD0\xB8\xD1\x98\xD0\xB0 \xD0\xB1\xD0\xBE\xD1\x81\xD0\xBD\xD0\xB5 \xD0\xBA\xD1\x9A \xD0\xB8\xD1\x81\xD1\x82\xD0\xBE\xD1\x80\xD0\xB8\xD1\x98\xD0\xB0 \xD0\xB1\xD0\xBE\xD1\x81\xD0\xBD\xD0\xB5 \xD0\xBA\xD1\x9A ";
-const char* kTeststr_bs_Latn = " a radi br\xC5\xBE\x65g rada po\xC5\xA1to rom radi sporije nego ram izvorni rom se isklju\xC4\x8Duje a dio ram a se rezervi\xC5\xA1\x65 te se u njega ne plo\xC4\x8D\x61 procesor ram memorija grafi\xC4\x8Dka kartica zvu\xC4\x8Dna kartica modem mre\xC5\xBEna kartica napojna jedinica ure\xC4\x91\x61ji za pohranjivanje";
+//const char* kTeststr_bs_Latn = " a radi br\xC5\xBE\x65g rada po\xC5\xA1to rom radi sporije nego ram izvorni rom se isklju\xC4\x8Duje a dio ram a se rezervi\xC5\xA1\x65 te se u njega ne plo\xC4\x8D\x61 procesor ram memorija grafi\xC4\x8Dka kartica zvu\xC4\x8Dna kartica modem mre\xC5\xBEna kartica napojna jedinica ure\xC4\x91\x61ji za pohranjivanje";
+// From 10% testing part of new lang=bs scrape
+const char* kTeststr_bs_Latn = "Novi predsjednik Me\xC5\xA1ihata Islamske zajednice u Srbiji (IZuS) i muftija dr. Mevlud ef. Dudi\xC4\x87 izjavio je u intervjuu za Anadolu Agency (AA) kako je uvjeren da \xC4\x87\x65 do\xC4\x87i do vra\xC4\x87\x61nja jedinstva me\xC4\x91u muslimanima i unutar Islamske zajednice na prostoru Sand\xC5\xBE\x61ka, te da je njegova ruka pru\xC5\xBE\x65na za povratak svih u okrilje Islamske zajednice u Srbiji nakon skoro sedam godina podjela u tom dijelu Srbije. Dudi\xC4\x87 je za predsjednika Me\xC5\xA1ihata IZ u Srbiji izabran 4. januara, a zvani\xC4\x8Dna inauguracija \xC4\x87\x65 biti obavljena u prvoj polovini februara. Kako se o\xC4\x8D\x65kuje, prisustvovat \xC4\x87\x65 joj i reisu-l-ulema Islamske zajednice u Srbiji Husein ef. Kavazovi\xC4\x87 koji \xC4\x87\x65 i zvani\xC4\x8Dno promovirati Dudi\xC4\x87\x61 u novog prvog \xC4\x8Dovjeka IZ u Srbiji. Dudi\xC4\x87 \xC4\x87\x65 danas boraviti u prvoj zvani\xC4\x8Dnoj posjeti reisu Kavazovi\xC4\x87u, \xC5\xA1to je njegov privi simboli\xC4\x8Dni potez nakon imenovanja. ";
+
 const char* kTeststr_ca_Latn = "al final en un \xC3\xBAnic lloc nhorabona l correu electr\xC3\xB2nic est\xC3\xA0 concebut com a eina de productivitat aleshores per qu\xC3\xA8 perdre el temps arxivant missatges per despr\xC3\xA9s intentar recordar on els veu desar i per qu\xC3\xA8 heu d eliminar missatges importants per l";
 const char* kTeststr_ceb_Latn = "Ang Sugbo usa sa mga labing ugmad nga lalawigan sa nasod. Kini ang sentro sa komersyo, edukasyon ug industriya sa sentral ug habagatang dapit sa kapupod-an. Ang mipadayag sa Sugbo isip ikapito nga labing nindot nga pulo sa , ang nag-inusarang pulo sa Pilipinas nga napasidunggan sa maong magasin sukad pa sa tuig";
 const char* kTeststr_ceb_Latn2 = "Ang mga komyun sa Pransiya duol-duol sa inkorporadong mga lungsod ug mga dakbayan sa Estados Unidos. Wala kini susamang istruktura sa Hiniusang Gingharian (UK) tungod kay ang estado niini taliwala sa di-metropolitan nga distrito ug sa sibil nga parokya. Wala usab kini susamang istruktura sa Pilipinas.";
@@ -302,7 +322,10 @@
 const char* kTeststr_hu_Latn = " a felhaszn\xC3\xA1l\xC3\xB3im a google azonos\xC3\xADt\xC3\xB3 sz\xC3\xB6veget ikor l\xC3\xA1tj\xC3\xA1k a felhaszn\xC3\xA1l\xC3\xB3im a google azonos\xC3\xADt\xC3\xB3 sz\xC3\xB6veget felhaszn\xC3\xA1l\xC3\xB3k a google azonos\xC3\xADt\xC3\xB3 sz\xC3\xB6veget fogj\xC3\xA1k l\xC3\xA1tni minden tranzakci\xC3\xB3 ut\xC3\xA1n ha a v\xC3\xA1s\xC3\xA1rl\xC3\xA1s\xC3\xA1t regisztr\xC3\xA1\x63i\xC3\xB3j\xC3\xA1t oldalunk";
 const char* kTeststr_hy_Armn = " \xD5\xA1 \xD5\xB5 \xD5\xA5\xD5\xBE \xD5\xB6\xD5\xA1 \xD5\xB0\xD5\xAB\xD5\xA1\xD6\x81\xD5\xA1\xD5\xAE \xD5\xA1\xD5\xB9\xD6\x84\xD5\xA5\xD6\x80\xD5\xB8\xD5\xBE \xD5\xB6\xD5\xA1\xD5\xB5\xD5\xB8\xD6\x82\xD5\xB4 \xD5\xA7 \xD5\xB0\xD5\xAB\xD5\xB6\xD5\xA3\xD5\xB0\xD5\xA1\xD6\x80\xD5\xAF\xD5\xA1\xD5\xB6\xD5\xAB \xD5\xB7\xD5\xA5\xD5\xB6\xD6\x84\xD5\xAB \xD5\xBF\xD5\xA1\xD6\x80\xD6\x85\xD6\x80\xD5\xAB\xD5\xB6\xD5\xA1\xD5\xAF \xD6\x83\xD5\xB8\xD6\x84\xD6\x80\xD5\xAB\xD5\xAF \xD6\x84\xD5\xA1\xD5\xBC\xD5\xA1\xD5\xAF\xD5\xB8\xD6\x82\xD5\xBD\xD5\xAB \xD5\xBA\xD5\xA1\xD5\xBF\xD5\xB8\xD6\x82\xD5\xB0\xD5\xA1\xD5\xB6\xD5\xB6\xD5\xA5\xD6\x80\xD5\xAB\xD5\xB6 \xD5\xA4\xD5\xA5\xD5\xBC \xD5\xB4\xD5\xA5\xD5\xB6\xD6\x84 \xD5\xB7\xD5\xA1\xD5\xBF \xD5\xA5\xD5\xB6\xD6\x84 \xD5\xB0\xD5\xA5\xD5\xBF\xD5\xA1\xD5\xB4\xD5\xB6\xD5\xA1\xD6\x81 \xD5\xA1\xD5\xBD\xD5\xB8\xD6\x82\xD5\xB4 \xD5\xA7 \xD5\xB6\xD5\xA1 \xD5\xA1\xD5\xB5\xD5\xBD\xD5\xBA\xD5\xA5\xD5\xBD \xD5\xA7";
 const char* kTeststr_ia_Latn = " super le sitos que tu visita isto es necessari pro render disponibile alcun functionalitates del barra de utensiles a fin que nos pote monstrar informationes ulterior super un sito le barra de utensiles debe dicer a nos le";
-const char* kTeststr_id_Latn = "Geng: Pengembaraan Bermula adalah film animasi 3D CGI pertama yang diproduksi di Malaysia. Film ini dibuat oleh Les' Copaque Production (LCP) dan dirilis di bioskop-bioskop seluruh Malaysia pada 12 Februari 2009. Film Geng pertama kali diluncurkan dalam sebuah acara peluncuran pada 11 September 2007 bersama dengan serial animasi pendek Upin & Ipin yang berhubungan dengan film tersebut. Pembuatan film ini didukung oleh berbagai pihak seperti Kementerian Sains, Teknologi dan Inovasi Malaysia (MOSTI) dengan memberi bantuan berupa dana sebesar RM1 juta.";
+//const char* kTeststr_id_Latn = "Geng: Pengembaraan Bermula adalah film animasi 3D CGI pertama yang diproduksi di Malaysia. Film ini dibuat oleh Les' Copaque Production (LCP) dan dirilis di bioskop-bioskop seluruh Malaysia pada 12 Februari 2009. Film Geng pertama kali diluncurkan dalam sebuah acara peluncuran pada 11 September 2007 bersama dengan serial animasi pendek Upin & Ipin yang berhubungan dengan film tersebut. Pembuatan film ini didukung oleh berbagai pihak seperti Kementerian Sains, Teknologi dan Inovasi Malaysia (MOSTI) dengan memberi bantuan berupa dana sebesar RM1 juta.";
+// From 10% testing part of new lang=id scrape
+const char* kTeststr_id_Latn = "berdiri setelah pengurusnya yang berusia 83 tahun, Fayzrahman Satarov, mendeklarasikan diri sebagai nabi dan rumahnya sebagai negara Islam Satarov digambarkan sebagai mantan ulama Islam  tahun 1970-an. Pengikutnya didorong membaca manuskripnya dan kebanyakan dilarang meninggalkan tempat persembunyian bawah tanah di dasar gedung delapan lantai mereka. Jaksa membuka penyelidikan kasus kriminal pada kelompok itu dan menyatakan akan membubarkan kelompok kalau tetap melakukan kegiatan ilegal seperti mencegah anggotanya mencari bantuan medis atau pendidikan. Sampai sekarang pihak berwajib belum melakukan penangkapan meskipun polisi mencurigai adanya tindak kekerasan pada anak. Pengadilan selanjutnya akan memutuskan apakah anak-anak diizinkan tetap tinggal dengan orang tua mereka. Kazan yang berada sekitar 800 kilometer di timur Moskow merupakan wilayah Tatarstan yang";
+
 const char* kTeststr_ie_Latn = " abhorre exceptiones in li derivation plu cardinal por un l i es li regularit\xC3\xA0 del flexion conjugation ples comparar latino sine flexione e li antiqui projectes naturalistic queles have quasi null regules de derivation ma si on nu examina li enunciationes";
 const char* kTeststr_ig_Latn = "Chineke b\xE1\xBB\xA5 aha \xE1\xBB\x8Dz\xE1\xBB\x8D nd\xC3\xAF omenala Igbo kp\xE1\xBB\x8Dro Chukwu. Mgbe nd\xE1\xBB\x8B bekee b\xE1\xBB\x8B\x61ra, ha mee ya nke ndi Christian. N'echiche ndi ekpere chi Omenala Ndi Igbo, Christianity, Judaism, ma Islam, Chineke nwere \xE1\xBB\x8Dt\xE1\xBB\xA5t\xE1\xBB\xA5 utu aha, ma nwee nan\xE1\xBB\x8B otu aha. \xE1\xBB\xA4z\xE1\xBB\x8D ab\xE1\xBB\xA5\xE1\xBB\x8D e si akp\xE1\xBB\x8D aha ah\xE1\xBB\xA5 b\xE1\xBB\xA5 Jehovah ma \xE1\xBB\x8C b\xE1\xBB\xA5 Yahweh. Na \xE1\xBB\x8Dt\xE1\xBB\xA5t\xE1\xBB\xA5 Akw\xE1\xBB\xA5kw\xE1\xBB\x8D Ns\xE1\xBB\x8D, e wep\xE1\xBB\xA5la aha Chineke ma jiri utu aha b\xE1\xBB\xA5 Onyenwe Any\xE1\xBB\x8B ma \xE1\xBB\x8D b\xE1\xBB\xA5 Chineke dochie ya. Ma mgbe e dere akw\xE1\xBB\xA5kw\xE1\xBB\x8D ns\xE1\xBB\x8D, aha ah\xE1\xBB\xA5 b\xE1\xBB\xA5 Jehova p\xE1\xBB\xA5tara n\xE2\x80\x99ime ya, ihe d\xE1\xBB\x8B ka ugboro p\xE1\xBB\xA5k\xE1\xBB\xA5 asaa(7,000).";
 const char* kTeststr_ik_Latn = " kuubuuraqabniqsuq ataruamik colville mi aasii tavrani siku kilaabman sulukpaukkat makua niksisugrufagivut tavrani sunaim\xC3\xB1\x61 atifa quaqqat ii quaqqat aasii ukiabmagu utiqhuta tamaufa utqiabvif\xC3\xB1un aasii\xC3\xB1 tatpaaffaqapta tuvaaqatinifarufa aasii\xC3\xB1";
@@ -343,7 +366,10 @@
 const char* kTeststr_mn_Cyrl = " \xD0\xB0 \xD0\xB1\xD0\xBE\xD0\xBB\xD0\xBE\xD0\xB2\xD1\x81\xD1\x80\xD0\xBE\xD0\xBD\xD0\xB3\xD1\x83\xD0\xB9 \xD0\xB1\xD0\xBE\xD0\xBB\xD0\xB3\xD0\xBE\xD1\x85 \xD0\xBE\xD1\x80\xD0\xBE\xD0\xBD \xD0\xBD\xD1\x83\xD1\x82\xD0\xB3\xD0\xB8\xD0\xB9\xD0\xBD \xD0\xB0\xD0\xB6\xD0\xB8\xD0\xBB \xD2\xAF\xD0\xB9\xD0\xBB\xD1\x81\xD0\xB8\xD0\xB9\xD0\xB3 \xD1\x83\xD1\x8F\xD0\xBB\xD0\xB4\xD1\x83\xD1\x83\xD0\xBB\xD0\xB6 \xD0\xB7\xD0\xBE\xD1\x85\xD0\xB8\xD1\x86\xD1\x83\xD1\x83\xD0\xBB\xD0\xB0\xD1\x85 \xD0\xB4\xD2\xAF\xD1\x80\xD1\x8D\xD0\xBC \xD0\xB6\xD1\x83\xD1\x80\xD0\xB0\xD0\xBC \xD0\xB1\xD0\xBE\xD0\xBB\xD0\xBE\xD0\xB2\xD1\x81\xD1\x80\xD1\x83\xD1\x83\xD0\xBB\xD0\xB0\xD1\x85 \xD0\xBE\xD1\x80\xD0\xBE\xD0\xBD \xD0\xBD\xD1\x83\xD1\x82\xD0\xB3\xD0\xB8\xD0\xB9\xD0\xBD \xD3\xA9\xD0\xBC\xD1\x87 \xD1\x85\xD3\xA9\xD1\x80\xD3\xA9\xD0\xBD\xD0\xB3\xD3\xA9 \xD1\x81\xD0\xB0\xD0\xBD\xD1\x85\xD2\xAF\xD2\xAF\xD0\xB3\xD0\xB8\xD0\xB9\xD0\xBD";
 const char* kTeststr_mn_Mong = "\xE1\xA0\xA6\xE1\xA0\xAD\xE1\xA0\xA1\xE2\x80\xAF\xE1\xA0\xB5\xE1\xA0\xA2\xE1\xA0\xA8 \xE1\xA0\xB4\xE1\xA0\xA2\xE1\xA0\xA8\xE1\xA0\xAD\xE1\xA0\x8E\xE1\xA0\xA0 \xE1\xA0\xAC\xE1\xA0\xA6\xE1\xA0\xA8\xE1\xA0\xB3\xE1\xA0\xA1\xE1\xA0\xA2\xE2\x80\xAF\xE1\xA0\xB5\xE1\xA0\xA2 \xE1\xA0\xA2\xE1\xA0\xAF\xE1\xA0\xAD\xE1\xA0\xA0\xE1\xA0\xAC\xE1\xA0\xA3";
 const char* kTeststr_mr_Deva = "\xE0\xA4\xB9\xE0\xA5\x88\xE0\xA4\xA6\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xA6  \xE0\xA4\x89\xE0\xA4\x9A\xE0\xA5\x8D\xE0\xA4\x9A\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA4\x90\xE0\xA4\x95\xE0\xA4\xBE (\xE0\xA4\xB8\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xAF\xE0\xA5\x8D\xE0\xA4\xAF\xC2\xB7\xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xB9\xE0\xA4\xBF\xE0\xA4\xA4\xE0\xA5\x80)\xE0\xA4\xA4\xE0\xA5\x87\xE0\xA4\xB2\xE0\xA5\x81\xE0\xA4\x97\xE0\xA5\x82: \xE0\xB0\xB9\xE0\xB1\x88\xE0\xB0\xA6\xE0\xB0\xB0\xE0\xB0\xBE\xE0\xB0\xAC\xE0\xB0\xBE\xE0\xB0\xA6\xE0\xB1\x81 , \xE0\xA4\x89\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xA6\xE0\xA5\x82: \xD8\xAD\xDB\x8C\xD8\xAF\xD8\xB1 \xD8\xA2\xD8\xA8\xD8\xA7\xD8\xAF \xE0\xA4\xB9\xE0\xA5\x87 \xE0\xA4\xAD\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA4\xA4\xE0\xA4\xBE\xE0\xA4\xA4\xE0\xA5\x80\xE0\xA4\xB2 \xE0\xA4\x86\xE0\xA4\x82\xE0\xA4\xA7\xE0\xA5\x8D\xE0\xA4\xB0 \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB6 \xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\x9A\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C\xE0\xA4\xA7\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA5\x80\xE0\xA4\x9A\xE0\xA5\x87 \xE0\xA4\xB6\xE0\xA4\xB9\xE0\xA4\xB0 \xE0\xA4\x86\xE0\xA4\xB9\xE0\xA5\x87. \xE0\xA4\xB9\xE0\xA5\x88\xE0\xA4\xA6\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA4\x9A\xE0\xA5\x80 \xE0\xA4\xB2\xE0\xA5\x8B\xE0\xA4\x95\xE0\xA4\xB8\xE0\xA4\x82\xE0\xA4\x96\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA5\xAD\xE0\xA5\xAD \xE0\xA4\xB2\xE0\xA4\xBE\xE0\xA4\x96 \xE0\xA5\xAA\xE0\xA5\xA6 \xE0\xA4\xB9\xE0\xA4\x9C\xE0\xA4\xBE\xE0\xA4\xB0 \xE0\xA5\xA9\xE0\xA5\xA9\xE0\xA5\xAA \xE0\xA4\x86\xE0\xA4\xB9\xE0\xA5\x87. \xE0\xA4\xAE\xE0\xA5\x8B\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\x82\xE0\xA4\x9A\xE0\xA5\x87 \xE0\xA4\xB6\xE0\xA4\xB9\xE0\xA4\xB0 \xE0\xA4\x85\xE0\xA4\xB6\xE0\xA5\x80 \xE0\xA4\x8F\xE0\xA4\x95\xE0\xA5\x87\xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xB3\xE0\xA5\x80 \xE0\xA4\x93\xE0\xA4\xB3\xE0\xA4\x96 \xE0\xA4\x85\xE0\xA4\xB8\xE0\xA4\xB2\xE0\xA5\x87\xE0\xA4\xB2\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xAF\xE0\xA4\xBE \xE0\xA4\xB6\xE0\xA4\xB9\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\x90\xE0\xA4\xA4\xE0\xA4\xBF\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xB8\xE0\xA4\xBF\xE0\xA4\x95, \xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\x82\xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\x95\xE0\xA5\x83\xE0\xA4\xA4\xE0\xA4\xBF\xE0\xA4\x95 \xE0\xA4\x86\xE0\xA4\xA3\xE0\xA4\xBF \xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xA5\xE0\xA4\xBE\xE0\xA4\xAA\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xB6\xE0\xA4\xBE\xE0\xA4\xB8\xE0\xA5\x8D\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA5\x80\xE0\xA4\xAF \xE0\xA4\xB5\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA4\xB8\xE0\xA4\xBE \xE0\xA4\xB2\xE0\xA4\xBE\xE0\xA4\xAD\xE0\xA4\xB2\xE0\xA4\xBE \xE0\xA4\x86\xE0\xA4\xB9\xE0\xA5\x87. \xE0\xA5\xA7\xE0\xA5\xAF\xE0\xA5\xAF\xE0\xA5\xA6 \xE0\xA4\xA8\xE0\xA4\x82\xE0\xA4\xA4\xE0\xA4\xB0 \xE0\xA4\xB6\xE0\xA4\xBF\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7\xE0\xA4\xA3 \xE0\xA4\x86\xE0\xA4\xA3\xE0\xA4\xBF \xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xB9\xE0\xA4\xBF\xE0\xA4\xA4\xE0\xA5\x80 \xE0\xA4\xA4\xE0\xA4\x82\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\x9E\xE0\xA4\xBE\xE0\xA4\xA8 \xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\x9A\xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xA3\xE0\xA5\x87 \xE0\xA4\x94\xE0\xA4\xB7\xE0\xA4\xA7\xE0\xA4\xA8\xE0\xA4\xBF\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xAE\xE0\xA4\xBF\xE0\xA4\xA4\xE0\xA5\x80 \xE0\xA4\x86\xE0\xA4\xA3\xE0\xA4\xBF \xE0\xA4\x9C\xE0\xA5\x88\xE0\xA4\xB5\xE0\xA4\xA4\xE0\xA4\x82\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\x9E\xE0\xA4\xBE\xE0\xA4\xA8 \xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7\xE0\xA5\x87\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xA4\xE0\xA5\x80\xE0\xA4\xB2 \xE0\xA4\x89\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA5\x8B\xE0\xA4\x97\xE0\xA4\xA7\xE0\xA4\x82\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\xBE\xE0\xA4\x82\xE0\xA4\x9A\xE0\xA5\x80 \xE0\xA4\xB5\xE0\xA4\xBE\xE0\xA4\xA2 \xE0\xA4\xB6\xE0\xA4\xB9\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xA4 \xE0\xA4\x9D\xE0\xA4\xBE\xE0\xA4\xB2\xE0\xA5\x80. \xE0\xA4\xA6\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7\xE0\xA4\xBF\xE0\xA4\xA3 \xE0\xA4\xAE\xE0\xA4\xA7\xE0\xA5\x8D\xE0\xA4\xAF \xE0\xA4\xAD\xE0\xA4\xBE\xE0\xA4\xB0\xE0\xA4\xA4\xE0\xA4\xBE\xE0\xA4\xA4\xE0\xA5\x80\xE0\xA4\xB2 \xE0\xA4\xAA\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xAF\xE0\xA4\x9F\xE0\xA4\xA8 \xE0\xA4\x86\xE0\xA4\xA3\xE0\xA4\xBF \xE0\xA4\xA4\xE0\xA5\x87\xE0\xA4\xB2\xE0\xA5\x81\xE0\xA4\x97\xE0\xA5\x82 \xE0\xA4\x9A\xE0\xA4\xBF\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\xAA\xE0\xA4\x9F\xE0\xA4\xA8\xE0\xA4\xBF\xE0\xA4\xB0\xE0\xA5\x8D\xE0\xA4\xAE\xE0\xA4\xBF\xE0\xA4\xA4\xE0\xA5\x80\xE0\xA4\x9A\xE0\xA5\x87 \xE0\xA4\xB9\xE0\xA5\x88\xE0\xA4\xA6\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\xAC\xE0\xA4\xBE\xE0\xA4\xA6 \xE0\xA4\xB9\xE0\xA5\x87 \xE0\xA4\x95\xE0\xA5\x87\xE0\xA4\x82\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\xB0 \xE0\xA4\x86\xE0\xA4\xB9\xE0\xA5\x87";
-const char* kTeststr_ms_Latn = "daripada dirinya hirako shinji seorang pemuda merujuk diri mereka sebagai vizard shinji telah cuba untuk menyakinkan ichigo untuk menyertai kumpulan mereka mengatakan bahawa hanya dia sahaja yang mampu mengajar ichigo teknik untuk mengawal hollow";
+//const char* kTeststr_ms_Latn = "daripada dirinya hirako shinji seorang pemuda merujuk diri mereka sebagai vizard shinji telah cuba untuk menyakinkan ichigo untuk menyertai kumpulan mereka mengatakan bahawa hanya dia sahaja yang mampu mengajar ichigo teknik untuk mengawal hollow";
+// From 10% testing part of new lang=ms scrape
+const char* kTeststr_ms_Latn = "pengampunan beramai-ramai supaya mereka pulang ke rumah masing-masing. Orang-orang besarnya enggan mengiktiraf sultan yang dilantik oleh Belanda sebagai Yang DiPertuan Selangor. Orang ramai pula tidak mahu menjalankan perniagaan bijih timah dengan Belanda, selagi raja yang berhak tidak ditabalkan. Perdagang yang lain dibekukan terus kerana untuk membalas jasa beliau yang membantu Belanda menentang Riau, Johor dan Selangor. Di antara tiga orang Sultan juga dipandang oleh rakyat sebagai seorang sultan yang paling gigih. 1 | 2 SULTAN Sebagai ganti Sultan Ibrahim ditabalkan Raja Muhammad iaitu Raja Muda. Walaupun baginda bukan anak isteri pertama bergelar Sultan Muhammad bersemayam di Kuala Selangor juga. Pentadbiran baginda yang lemah itu menyebabkan Kuala Selangor menjadi sarang ioleh Cina di Lukut tidak diambil tindakan, sedangkan baginda sendiri banyak berhutang kepada 1";
+
 const char* kTeststr_ms_Latn2 = "bilik sebelah berkata julai pada pm ladymariah hmm sume ni terpulang kepada individu mungkin anda bernasib baik selama ini dalam membeli hp yang bagus deli berkata julai pada pm walaupun bukan bahsa baku tp tetap bahasa melayu kan perubahan boleh dibuat";
 const char* kTeststr_mt_Latn = " ata ikteb messa\xC4\xA1\xC4\xA1 lil indirizzi differenti billi tag\xC4\xA7\xC5\xBCilhom u tag\xC4\xA7\x66\x61s il buttuna ikteb \xC5\xBCid numri tfittxijja tal kotba mur print home kotba minn pagni ghal pagna minn ghall ktieb ta a\xC4\x8B\xC4\x8B\x65ssa stieden habib iehor grazzi it tim tal gruppi google";
 const char* kTeststr_my_Latn = " jyk ef oif gawgodcsifayvdrfhrnf bmawgrsm topf dsvj g mail tamumif avhvm atmif txjwgif yxrqhk avhvm efae m pwifavhvm ef ufkyfwdky help center odkyvmyg drsm ar avh dswjhar cgef rsm udkawdkifygw f tajzawgudk smedkifygw f jyd awmh g mail cool features rsm";