[feat] llama tokenzier

2023-09-09 07:18:20 +09:00
parent 9b757301e4
commit 560f6b56e3
2 changed files with 10 additions and 1 deletions
--- a/public/token/llama/llama.model
+++ b/public/token/llama/llama.model
--- a/src/ts/tokenizer.ts
+++ b/src/ts/tokenizer.ts
@@ -17,10 +17,14 @@ async function encode(data:string):Promise<(number[]|Uint32Array|Int32Array)>{
    if(db.aiModel.startsWith('novelai')){
        return await tokenizeWebTokenizers(data, 'novelai')
    }
+    if(db.aiModel.startsWith('local_') || db.aiModel === 'mancer' || db.aiModel === 'textgen_webui'){
+        return await tokenizeWebTokenizers(data, 'llama')
+
+    }
    return await tikJS(data)
 }

-type tokenizerType = 'novellist'|'claude'|'novelai'
+type tokenizerType = 'novellist'|'claude'|'novelai'|'llama'

 let tikParser:Tiktoken = null
 let tokenizersTokenizer:Tokenizer = null
@@ -60,6 +64,11 @@ async function tokenizeWebTokenizers(text:string, type:tokenizerType) {
                ).arrayBuffer())
                
                break
+            case 'llama':
+                tokenizersTokenizer = await webTokenizer.Tokenizer.fromSentencePiece(
+                    await (await fetch("/token/llama/llama.model")
+                ).arrayBuffer())
+
        }
        tokenizersType = type
    }