Model description

A fine-tuned version of google/long-t5-tglobal-base on the booksum dataset:

30+ epochs of fine-tuning from the base model on V100/A100 GPUs
Training used 16384 token input / 1024 max output

Read the paper by Guo et al. here: LongT5: Efficient Text-To-Text Transformer for Long Sequences

How-To in Python

Install/update transformers pip install -U transformers

Summarize text with pipeline:

import torch
from transformers import pipeline

summarizer = pipeline(
    "summarization",
    "Shobhank-iiitdwd/long-t5-tglobal-base-16384-book-summary",
    device=0 if torch.cuda.is_available() else -1,
)
long_text = "Here is a lot of text I don't want to read. Replace me"

result = summarizer(long_text)
print(result[0]["summary_text"])

Training hyperparameters

NOTE: early checkpoints of this model were trained on a "smaller" subsection of the dataset as it was filtered for summaries of 1024 characters. This was subsequently caught and adjusted to 1024 tokens and then trained further for 10+ epochs.

The following hyperparameters were used during the most recent training round*:

learning_rate: 0.0005
train_batch_size: 1
eval_batch_size: 1
seed: 42
distributed_type: multi-GPU
gradient_accumulation_steps: 128
total_train_batch_size: 128
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.01
num_epochs: 2

* Prior training sessions used roughly similar parameters; multiple sessions were required as this takes eons to train

Framework versions

Transformers 4.20.1
Pytorch 1.10.0+cu113
Datasets 2.3.2
Tokenizers 0.12.1

Downloads last month: 60

Paper for Shobhank-iiitdwd/long-t5-tglobal-base-16384-book-summary

LongT5: Efficient Text-To-Text Transformer for Long Sequences

Paper • 2112.07916 • Published Dec 15, 2021 • 2

Evaluation results

ROUGE-1 on kmfoda/booksum
test set self-reported

36.408
ROUGE-2 on kmfoda/booksum
test set self-reported

6.065
ROUGE-L on kmfoda/booksum
test set self-reported

16.721
ROUGE-LSUM on kmfoda/booksum
test set self-reported

33.340
loss on kmfoda/booksum
test set self-reported

NaN
gen_len on kmfoda/booksum
test set self-reported

252.810
ROUGE-1 on samsum
test set self-reported

30.905
ROUGE-2 on samsum
test set self-reported

7.471
ROUGE-L on samsum
test set self-reported

22.396
ROUGE-LSUM on samsum
test set self-reported

26.909
loss on samsum
test set self-reported

NaN
gen_len on samsum
test set self-reported

46.797
ROUGE-1 on cnn_dailymail
test set self-reported

30.594
ROUGE-2 on cnn_dailymail
test set self-reported

7.252
ROUGE-L on cnn_dailymail
test set self-reported

17.716
ROUGE-LSUM on cnn_dailymail
test set self-reported

27.288
loss on cnn_dailymail
test set self-reported

NaN
gen_len on cnn_dailymail
test set self-reported

125.251
ROUGE-1 on xsum
test set self-reported

20.365
ROUGE-2 on xsum
test set self-reported

3.413