#1018962 (PyPy3) No.2936 Sum of Square of Mex

提出ソース

結果

問題	No.2936 Sum of Square of Mex
ユーザー	PNJ
提出日時	2024-10-13 02:22:07
言語	PyPy3 (7.3.15)
結果	TLE
実行時間	-
コード長	11,111 bytes
コンパイル時間	143 ms
コンパイル使用メモリ	82,396 KB
実行使用メモリ	409,924 KB
最終ジャッジ日時	2024-10-13 02:22:14
合計ジャッジ時間	6,079 ms
ジャッジサーバーID （参考情報）	judge4 / judge5

このコードへのチャレンジ
（要ログイン）

テストケース

テストケース表示

入力	結果	実行時間実行使用メモリ
testcase_00	AC	107 ms 96,100 KB
testcase_01	AC	107 ms 88,048 KB
testcase_02	AC	1,371 ms 246,720 KB
testcase_03	AC	196 ms 102,412 KB
testcase_04	AC	145 ms 99,992 KB
testcase_05	AC	134 ms 100,268 KB
testcase_06	AC	108 ms 87,616 KB
testcase_07	AC	160 ms 100,620 KB
testcase_08	TLE	-
testcase_09	--	-
testcase_10	--	-
testcase_11	--	-
testcase_12	--	-
testcase_13	--	-
testcase_14	--	-
testcase_15	--	-
testcase_16	--	-
testcase_17	--	-
testcase_18	--	-
testcase_19	--	-
testcase_20	--	-
testcase_21	--	-
testcase_22	--	-
testcase_23	--	-
testcase_24	--	-
testcase_25	--	-
testcase_26	--	-
testcase_27	--	-
testcase_28	--	-

権限があれば一括ダウンロードができます

ソースコード

raw source code

mod = 998244353

n = 10**6
inv = [1 for j in range(n+1)]
for a in range(2,n+1):
  # ax + py = 1 <=> rx + p(-x-qy) = -q => x = -(inv[r]) * (p//a)  (r = p % a)
  res = (mod - inv[mod%a]) * (mod // a)
  inv[a] = res % mod

fact = [1 for i in range(n+1)]
for i in range(1,n+1):
  fact[i] = fact[i-1]*i % mod

fact_inv = [1 for i in range(n+1)]
fact_inv[-1] = pow(fact[-1],mod-2,mod)
for i in range(n,0,-1):
  fact_inv[i-1] = fact_inv[i]*i % mod

def binom(n,r):
  if n < r or n < 0 or r < 0:
    return 0
  res = fact_inv[n-r] * fact_inv[r] % mod
  res *= fact[n]
  res %= mod
  return res

NTT_friend = [120586241,167772161,469762049,754974721,880803841,924844033,943718401,998244353,1045430273,1051721729,1053818881]
NTT_dict = {}
for i in range(len(NTT_friend)):
  NTT_dict[NTT_friend[i]] = i
NTT_info = [[20,74066978],[25,17],[26,30],[24,362],[23,211],[21,44009197],[22,663003469],[23,31],[20,363],[20,330],[20,2789]]

def popcount(n):
  c=(n&0x5555555555555555)+((n>>1)&0x5555555555555555)
  c=(c&0x3333333333333333)+((c>>2)&0x3333333333333333)
  c=(c&0x0f0f0f0f0f0f0f0f)+((c>>4)&0x0f0f0f0f0f0f0f0f)
  c=(c&0x00ff00ff00ff00ff)+((c>>8)&0x00ff00ff00ff00ff)
  c=(c&0x0000ffff0000ffff)+((c>>16)&0x0000ffff0000ffff)
  c=(c&0x00000000ffffffff)+((c>>32)&0x00000000ffffffff)
  return c

def topbit(n):
  h = n.bit_length()
  h -= 1
  return h

def prepared_fft(mod = 998244353):
  rank2 = NTT_info[NTT_dict[mod]][0]
  root,iroot = [0] * 30,[0] * 30
  rate2,irate2= [0] * 30,[0] * 30
  rate3,irate3= [0] * 30,[0] * 30

  root[rank2] = NTT_info[NTT_dict[mod]][1]
  iroot[rank2] = pow(root[rank2],mod - 2,mod)
  for i in range(rank2-1,-1,-1):
    root[i] = root[i+1] * root[i+1] % mod
    iroot[i] = iroot[i+1] * iroot[i+1] % mod

  prod,iprod = 1,1
  for i in range(rank2-1):
    rate2[i] = root[i + 2] * prod % mod
    irate2[i] = iroot[i + 2] * iprod % mod
    prod = prod * iroot[i + 2] % mod
    iprod = iprod * root[i + 2] % mod
  
  prod,iprod = 1,1
  for i in range(rank2-2):
    rate3[i] = root[i + 3] * prod % mod
    irate3[i] = iroot[i + 3] * iprod % mod
    prod = prod * iroot[i + 3] % mod
    iprod = iprod * root[i + 3] % mod
  
  return root,iroot,rate2,irate2,rate3,irate3

root,iroot,rate2,irate2,rate3,irate3 = prepared_fft()

def ntt(a):
  n = len(a)
  h = topbit(n)
  assert (n == 1 << h)
  le = 0
  while le < h:
    if h - le == 1:
      p = 1 << (h - le - 1)
      rot = 1
      for s in range(1 << le):
        offset = s << (h - le)
        for i in range(p):
          l = a[i + offset]
          r = a[i + offset + p] * rot % mod
          a[i + offset] = (l + r) % mod
          a[i + offset + p] = (l - r) % mod
        rot = rot * rate2[topbit(~s & -~s)] % mod
      le += 1
    else:
      p = 1 << (h - le - 2)
      rot,imag = 1,root[2]
      for s in range(1 << le):
        rot2 = rot * rot % mod
        rot3 = rot2 * rot % mod
        offset = s << (h - le)
        for i in range(p):
          a0 = a[i + offset]
          a1 = a[i + offset + p] * rot
          a2 = a[i + offset + p * 2] * rot2
          a3 = a[i + offset + p * 3] * rot3
          a1na3imag = (a1 - a3) % mod * imag
          a[i + offset] = (a0 + a2 + a1 + a3) % mod
          a[i + offset + p] = (a0 + a2 - a1 - a3) % mod
          a[i + offset + p * 2] = (a0 - a2 + a1na3imag) % mod
          a[i + offset + p * 3] = (a0 - a2 - a1na3imag) % mod
        rot = rot * rate3[topbit(~s & -~s)] % mod
      le += 2

def intt(a):
  n = len(a)
  h = topbit(n)
  assert (n == 1 << h)
  coef = pow(n,mod - 2,mod)
  for i in range(n):
    a[i] = a[i] * coef % mod
  le = h
  while le:
    if le == 1:
      p = 1 << (h - le)
      irot = 1
      for s in range(1 << (le - 1)):
        offset = s << (h - le + 1)
        for i in range(p):
          l = a[i + offset]
          r = a[i + offset + p]
          a[i + offset] = (l + r) % mod
          a[i + offset + p] = (l - r) * irot % mod
        irot = irot * irate2[topbit(~s & -~s)] % mod
      le -= 1
    else:
      p = 1 << (h - le)
      irot,iimag = 1,iroot[2]
      for s in range(1 << (le - 2)):
        irot2 = irot * irot % mod
        irot3 = irot2 * irot % mod
        offset = s << (h - le + 2)
        for i in range(p):
          a0 = a[i + offset]
          a1 = a[i + offset + p]
          a2 = a[i + offset + p * 2]
          a3 = a[i + offset + p * 3]
          a2na3iimag = (a2 - a3) * iimag % mod
          a[i + offset] = (a0 + a1 + a2 + a3) % mod
          a[i + offset + p] = (a0 - a1 + a2na3iimag) * irot % mod
          a[i + offset + p * 2] = (a0 + a1 - a2 - a3) * irot2 % mod
          a[i + offset + p * 3] = (a0 - a1 - a2na3iimag) * irot3 % mod
        irot *= irate3[topbit(~s & -~s)]
        irot %= mod
      le -= 2

def convolute_naive(a,b):
  res = [0] * (len(a) + len(b) - 1)
  for i in range(len(a)):
    for j in range(len(b)):
      res[i+j] = (res[i+j] + a[i] * b[j] % mod) % mod
  return res

def convolute(a,b):
  s = a[:]
  t = b[:]
  n = len(s)
  m = len(t)
  if min(n,m) <= 60:
    return convolute_naive(s,t)
  le = 1
  while le < n + m - 1:
    le *= 2
  s += [0] * (le - n)
  t += [0] * (le - m)
  ntt(s)
  ntt(t)
  for i in range(le):
    s[i] = s[i] * t[i] % mod
  intt(s)
  s = s[:n + m - 1]
  return s

def fps_inv(f,deg = -1):
  assert (f[0] != 0)
  if deg == -1:
    deg = len(f)
  res = [0] * deg
  res[0] = pow(f[0],mod-2,mod)
  d = 1
  while d < deg:
    a = [0] * (d << 1)
    tmp = min(len(f),d << 1)
    a[:tmp] = f[:tmp]
    b = [0] * (d << 1)
    b[:d] = res[:d]
    ntt(a)
    ntt(b)
    for i in range(d << 1):
      a[i] = a[i] * b[i] % mod
    intt(a)
    a[:d] = [0] * d
    ntt(a)
    for i in range(d << 1):
      a[i] = a[i] * b[i] % mod
    intt(a)
    for j in range(d,min(d << 1,deg)):
      if a[j]:
        res[j] = mod - a[j]
      else:
        res[j] = 0
    d <<= 1
  return res

def fps_div(f,g):
  n,m = len(f),len(g)
  if n < m:
    return [],f
  rev_f = f[:]
  rev_f = rev_f[::-1]
  rev_g = g[:]
  rev_g = rev_g[::-1]
  rev_q = convolute(rev_f,fps_inv(rev_g,n-m+1))[:n-m+1]
  q = rev_q[:]
  q = q[::-1]
  p = convolute(g,q)
  r = f[:]
  for i in range(min(len(p),len(r))):
    r[i] -= p[i]
    r[i] %= mod
  while len(r):
    if r[-1] != 0:
      break
    r.pop()
  return q,r

def fps_add(f,g):
  n = max(len(f),len(g))
  res = [0] * n
  for i in range(len(f)):
    res[i] = f[i]
  for i in range(len(g)):
    res[i] = (res[i] + g[i]) % mod
  return res

def fps_diff(f):
  if len(f) <= 1:
    return [0]
  res = []
  for i in range(1,len(f)):
    res.append(i * f[i] % mod)
  return res

def fps_integrate(f):
  n = len(f)
  res = [0] * (n + 1)
  for i in range(n):
    res[i+1] = pow(i + 1,mod-2,mod) * f[i] % mod
  return res

def fps_log(f,deg = -1):
  assert (f[0] == 1)
  if deg == -1:
    deg = len(f)
  res = convolute(fps_diff(f),fps_inv(f,deg))
  res = fps_integrate(res)
  return res[:deg]

def fps_exp(f,deg = -1):
  assert (f[0] == 0)
  if deg == -1:
    deg = len(f)
  res = [1,0]
  if len(f) > 1:
    res[1] = f[1]
  g = [1]
  p = []
  q = [1,1]
  m = 2
  while m < deg:
    y = res + [0]*m
    ntt(y)
    p = q[:]
    z = [y[i] * p[i] for i in range(len(p))]
    intt(z)
    z[:m >> 1] = [0] * (m >> 1)
    ntt(z)
    for i in range(len(p)):
      z[i] = z[i] * (-p[i]) % mod
    intt(z)
    g[m >> 1:] = z[m >> 1:]
    q = g + [0] * m
    ntt(q)
    tmp = min(len(f),m)
    x = f[:tmp] + [0] * (m - tmp)
    x = fps_diff(x)
    x.append(0)
    ntt(x)
    for i in range(len(x)):
      x[i] = x[i] * y[i] % mod
    intt(x)
    for i in range(len(res)):
      if i == 0:
        continue
      x[i-1] -= res[i] * i % mod
    x += [0] * m
    for i in range(m-1):
      x[m+i],x[i] = x[i],0
    ntt(x)
    for i in range(len(q)):
      x[i] = x[i] * q[i] % mod
    intt(x)
    x.pop()
    x = fps_integrate(x)
    x[:m] = [0] * m
    for i in range(m,min(len(f),m << 1)):
      x[i] += f[i]
    ntt(x)
    for i in range(len(y)):
      x[i] = x[i] * y[i] % mod
    intt(x)
    res[m:] = x[m:]
    m <<= 1
  return res[:deg]

def fps_pow(f,k,deg = -1):
  if deg == -1:
    deg = len(f)
  if k == 0:
    return [1] + [0] * (deg - 1)
  while len(f) < deg:
    f.append(0)
  p = 0
  while p < deg:
    if f[p]:
      break
    p += 1
  if p * k >= deg:
    return [0] * deg
  a = f[p]
  g = [0 for _ in range(deg - p)]
  a_inv = pow(a,mod-2,mod)
  for i in range(deg - p):
    g[i] = f[i + p] * a_inv % mod
  g = fps_log(g)
  for i in range(deg-p):
    g[i] = g[i] * k % mod
  g = fps_exp(g)
  a = pow(a,k,mod)
  res = [0] * deg
  for i in range(deg):
    j = i + p * k
    if j >= deg:
      break
    res[j] = g[i] * a % mod
  return res

def composition(f,g):
  def rec(n,k,Q,f):
    if n == 1:
      # part A
      p = [0 for _ in range(2 * k)]
      ff = f[:]
      ff = ff[::-1]
      for i in range(k):
        p[2 * i] = ff[i]
      return p
    
    R = [0 for _ in range(2*n*k)]
    for i in range(2*n*k):
      R[i] = Q[i]
      if i % 2:
        R[i] = (mod - R[i]) % mod
    QQ = convolute(Q,R)
    for i in range(4*n*k - len(QQ)):
      QQ.append(0)
    for i in range(2*n*k):
      QQ[2*n*k + i] = (QQ[2*n*k + i] + Q[i] + R[i]) % mod
    nxt_Q = [0 for _ in range(2 * n * k)]
    for j in range(2*k):
      for i in range(n // 2):
        nxt_Q[n*j + i] = QQ[2*n*j + 2*i]

    nxt_p = rec(n // 2,k * 2,nxt_Q,f)
    # part B
    pq = [0 for _ in range(4 * n * k)]
    for j in range(2 * k):
      for i in range(n // 2):
        pq[2*n*j + 2*i+1] = (pq[2*n*j + 2*i+1] + nxt_p[n*j + i]) % mod
    
    p = [0 for _ in range(2 * n * k)]
    for i in range(2 * n * k):
      p[i] = (p[i] + pq[2 * n * k + i]) % mod
    pq.pop()
    x = transposed_convolute(pq,R)
    for i in range(2*n*k):
      p[i] = (p[i] + x[i]) % mod
    return p
  
  n = len(g)
  assert (popcount(n) == 1)
  k = 1
  Q = [0 for _ in range(2 * n)]
  for i in range(n):
    Q[i] = (mod - g[i]) % mod
  p = rec(n,k,Q,f)
  # part C
  output = [0 for i in range(n)]
  for i in range(n):
    output[i] = p[i]
  output = output[::-1]
  return output

def transposed_ntt(a):
  b = a[:]
  intt(b)
  b = [b[0]] + b[1:][::-1]
  for i in range(len(a)):
    a[i] = b[i] * len(a) % mod
  return a

def transposed_ntt_inv(a):
  b = [a[0]] + a[1:][::-1]
  ntt(b)
  n = len(b)
  n_inv = pow(n,mod - 2,mod)
  for i in range(len(b)):
    a[i] = b[i] * n_inv % mod
  return

def transposed_convolute(aa,bb):
  a,b = aa[:],bb[:]
  n,m = len(a),len(b)
  L = 1
  while L < max(len(a),len(b)):
    L *= 2
  for i in range(L - n):
    a.append(0)
  for i in range(L - m):
    b.append(0)
  ntt(b)
  transposed_ntt_inv(a)
  for i in range(L):
    a[i] = a[i] * b[i] % mod
  transposed_ntt(a)
  a = a[:(n-m+1)]
  return a

N,M = map(int,input().split())
f = [0]
g = [1]
for i in range(1,N + 1):
  f.append(i * i % mod)
  if i > M:
    f[-1] = 0
  g.append(fact_inv[i])

gg = g[:]
gg[0] = 0
gg = convolute(gg,fps_inv(g))[:N + 1]

while popcount(len(f)) != 1:
  f.append(0)
  gg.append(0)
f = composition(f,gg)[:N + 1]
f = convolute(f,fps_pow(g,M))[:N + 1]
ans = f[N]
if M == 0:
  ans = 0
g[0] = 0
g = fps_pow(g,M + 1)
ans = (ans + g[N] * ((M + 1) * (M + 1) % mod) % mod) % mod
ans = ans * fact[N] % mod
print(ans)

yukicoder

結果

テストケース

ソースコード