unpad-impl / modeling_eurobert.py

Upload modeling_eurobert.py

8ef3829 verified 21 days ago

5.27 kB

	from typing import Unpack
	import torch
	from transformers import DataCollatorWithFlattening
	from transformers.masking_utils import create_bidirectional_mask
	from transformers.modeling_outputs import BaseModelOutput
	from transformers.models.eurobert import (
	EuroBertForMaskedLM,
	EuroBertModel,
	EuroBertForSequenceClassification,
	EuroBertForTokenClassification
	)
	from transformers.utils import TransformersKwargs


	def _unpad_input(input_ids: torch.Tensor, attention_mask: torch.Tensor):
	collator = DataCollatorWithFlattening(return_flash_attn_kwargs=True)
	features = collator([{"input_ids": i[a.bool()].tolist()} for i, a in zip(input_ids, attention_mask)])
	return features


	def _pad_output(inputs: torch.Tensor, indices: torch.Tensor, batch: int, seqlen: int,) -> torch.Tensor:
	if inputs.dim() == 3:
	inputs = inputs.squeeze()
	if inputs.dim() == 1:
	output = torch.zeros(batch * seqlen, dtype=inputs.dtype, device=inputs.device)
	output[indices] = inputs
	padded_inputs = output.view(batch, seqlen)
	else:
	_, *rest = inputs.shape
	output = torch.zeros(batch * seqlen, *rest, dtype=inputs.dtype, device=inputs.device)
	output[indices] = inputs
	padded_inputs = output.view(batch, seqlen, *rest)
	return padded_inputs


	class UnpadEuroBertModel(EuroBertModel):

	def __init__(self, config):
	super().__init__(config)

	def forward(
	self,
	input_ids: torch.LongTensor = None,
	attention_mask: torch.Tensor \| None = None,
	position_ids: torch.LongTensor \| None = None,
	inputs_embeds: torch.FloatTensor \| None = None,
	**kwargs: Unpack[TransformersKwargs],
	) -> tuple \| BaseModelOutput:
	if (input_ids is None) ^ (inputs_embeds is not None):
	raise ValueError("You must specify exactly one of input_ids or inputs_embeds")

	if input_ids is not None:
	device = input_ids.device
	seq_length = input_ids.shape[1]
	batch_size = input_ids.size(0)
	else:
	device = inputs_embeds.device
	seq_length = inputs_embeds.shape[1]
	batch_size = inputs_embeds.size(0)

	indices = None
	if self.config._attn_implementation.startswith("flash_attention"):
	if input_ids is None or attention_mask is None:
	raise ValueError("Unpadding requires both input_ids and attention_mask")
	with torch.no_grad():
	indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
	features = _unpad_input(input_ids, attention_mask)
	input_ids = features["input_ids"].to(device=device)
	position_ids = features["position_ids"].to(device=device)
	attention_mask = None
	kwargs["cu_seq_lens_k"] = features["cu_seq_lens_k"].to(device=device)
	kwargs["cu_seq_lens_q"] = features["cu_seq_lens_q"].to(device=device)
	kwargs["max_length_k"] = features["max_length_k"]
	kwargs["max_length_q"] = features["max_length_q"]

	if inputs_embeds is None:
	inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)

	if position_ids is None:
	position_ids = torch.arange(inputs_embeds.shape[1], device=inputs_embeds.device).unsqueeze(0)

	bidirectional_mask = create_bidirectional_mask(
	config=self.config,
	inputs_embeds=inputs_embeds,
	attention_mask=attention_mask,
	)

	hidden_states = inputs_embeds
	position_embeddings = self.rotary_emb(hidden_states, position_ids=position_ids)

	for encoder_layer in self.layers[: self.config.num_hidden_layers]:
	hidden_states = encoder_layer(
	hidden_states,
	attention_mask=bidirectional_mask,
	position_embeddings=position_embeddings,
	position_ids=position_ids,
	**kwargs,
	)

	hidden_states = self.norm(hidden_states)
	if self.config._attn_implementation.startswith("flash_attention"):
	hidden_states = _pad_output(
	inputs=hidden_states, indices=indices, batch=batch_size, seqlen=seq_length
	)

	return BaseModelOutput(
	last_hidden_state=hidden_states,
	)


	class UnpadEuroBertForMaskedLM(EuroBertForMaskedLM):

	def __init__(self, config):
	super().__init__(config)
	self.model = UnpadEuroBertModel(config)
	self.post_init()


	class UnpadEuroBertForSequenceClassification(EuroBertForSequenceClassification):

	def __init__(self, config):
	super().__init__(config)
	self.model = UnpadEuroBertModel(config)
	self.post_init()


	class UnpadEuroBertForTokenClassification(EuroBertForTokenClassification):

	def __init__(self, config):
	super().__init__(config)
	self.model = UnpadEuroBertModel(config)
	self.post_init()


	def enable_eurobert_unpadding():
	EuroBertModel.forward = UnpadEuroBertModel.forward