feat: Add gemini tokenizer for gemma model

2024-05-28 02:25:06 +09:00
parent 33fd4f2741
commit 007f6bf59e
2 changed files with 35 additions and 1 deletions
--- a/public/token/gemma/tokenizer.model
+++ b/public/token/gemma/tokenizer.model
--- a/src/ts/tokenizer.ts
+++ b/src/ts/tokenizer.ts
@@ -6,6 +6,7 @@ import type { MultiModal, OpenAIChat } from "./process";
 import { supportsInlayImage } from "./process/files/image";
 import { risuChatParser } from "./parser";
 import { tokenizeGGUFModel } from "./process/models/local";
+import { globalFetch } from "./storage/globalApi";


 export const tokenizerList = [
@@ -78,11 +79,14 @@ export async function encode(data:string):Promise<(number[]|Uint32Array|Int32Arr
    if(db.aiModel.startsWith('gpt4o')){
        return await tikJS(data, 'o200k_base')
    }
+    if(db.aiModel.startsWith('gemini')){
+        return await tokenizeWebTokenizers(data, 'gemma')
+    }

    return await tikJS(data)
 }

-type tokenizerType = 'novellist'|'claude'|'novelai'|'llama'|'mistral'|'llama3'
+type tokenizerType = 'novellist'|'claude'|'novelai'|'llama'|'mistral'|'llama3'|'gemma'

 let tikParser:Tiktoken = null
 let tokenizersTokenizer:Tokenizer = null
@@ -116,6 +120,31 @@ async function tikJS(text:string, model='cl100k_base') {
    return tikParser.encode(text)
 }

+async function geminiTokenizer(text:string) {
+    const db = get(DataBase)
+    const fetchResult = await globalFetch(`https://generativelanguage.googleapis.com/v1beta/${db.aiModel}:countTextTokens`, {
+        "headers": {
+            "content-type": "application/json",
+            "authorization": `Bearer ${db.google.accessToken}`
+        },
+        "body": JSON.stringify({
+            "prompt":{
+                text: text
+            }
+        }),
+        "method": "POST"
+    })
+
+    if(!fetchResult.ok){
+        //fallback to tiktoken
+        return await tikJS(text)
+    }
+
+    const result = fetchResult.data
+
+    return result.tokenCount ?? 0
+}
+
 async function tokenizeWebTokenizers(text:string, type:tokenizerType) {
    if(type !== tokenizersType || !tokenizersTokenizer){
        const webTokenizer = await import('@mlc-ai/web-tokenizers')
@@ -151,6 +180,11 @@ async function tokenizeWebTokenizers(text:string, type:tokenizerType) {
                    await (await fetch("/token/mistral/tokenizer.model")
                ).arrayBuffer())
                break
+            case 'gemma':
+                tokenizersTokenizer = await webTokenizer.Tokenizer.fromSentencePiece(
+                    await (await fetch("/token/gemma/tokenizer.model")
+                ).arrayBuffer())
+                break

        }
        tokenizersType = type