关于decay_mask代码的疑惑
#29
by bluelueSea - opened
请问modeling.py中的代码
decay_mask = ((g.unsqueeze(-1) - g.unsqueeze(-2)).tril().exp().float()).tril()
连续使用了两次tril()是否冗余?
bluelueSea changed discussion status to closed
请问modeling.py中的代码
decay_mask = ((g.unsqueeze(-1) - g.unsqueeze(-2)).tril().exp().float()).tril()
连续使用了两次tril()是否冗余?