LINEは商用利用可能な36億パラメータの日本語言語モデルを公開

2023年8月15日

LINEのNLP Foundation Devチームが新たな日本語言語モデル「japanese-large-lm」を公開しました。
モデルは、36億（3.6 Billion）および17億（1.7 Billion）のパラメータを持ち、HuggingFace Hubで利用可能です。

このモデルはLINE独自の大規模日本語Webコーパスを使用して訓練され、高品質なデータの活用が強調されています。

また簡単に試すためのコードも公開されています。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed
  
model = AutoModelForCausalLM.from_pretrained("line-corporation/japanese-large-lm-3.6b", torch_dtype=torch.float16)
# float16は指定しなくても問題ありません
tokenizer = AutoTokenizer.from_pretrained("line-corporation/japanese-large-lm-3.6b", use_fast=False)
# use_fast=False は必ず付与してください。なくても動きますが、我々の学習状況とは異なるので性能が下がります。
generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)
set_seed(101)
 
text = generator(
    "おはようございます、今日の天気は",
    max_length=30,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    num_return_sequences=5,
)
 
for t in text:
  print(t)
 
# 下記は生成される出力の例
# [{'generated_text': 'おはようございます、今日の天気は雨模様ですね。梅雨のこの時期の 朝は洗濯物が乾きにくいなど、主婦にとっては悩みどころですね。 では、'},
#  {'generated_text': 'おはようございます、今日の天気は晴れ。 気温は8°C位です。 朝晩は結構冷え込むようになりました。 寒くなってくると、...'},
#  {'generated_text': 'おはようございます、今日の天気は曇りです。 朝起きたら雪が軽く積もっていた。 寒さもそれほどでもありません。 日中は晴れるみたいですね。'},
#  {'generated_text': 'おはようございます、今日の天気は☁のち☀です。 朝の気温5°C、日中も21°Cと 暖かい予報です'},
#  {'generated_text': 'おはようございます、今日の天気は晴天ですが涼しい1日です、気温は午後になり低くなり25°Cくらい、風も強いようですので、'}]

さらに今後、指示文に対して適切な出力を行えるようにチューニング（Instruction tuning）したモデルを近日中に公開予定としています。

よかったらシェアしてね！