#936988 (C++17) No.2579 Dice Sum Infinity (制約変更版)

提出ソース
結果

問題	No.2579 Dice Sum Infinity (制約変更版)
コンテスト
ユーザー	heno239
提出日時	2023-12-07 03:38:12
言語	C++17 (gcc 15.2.0 + boost 1.90.0) コンパイル: `g++-15 -O2 -lm -std=c++17 -Wuninitialized -DONLINE_JUDGE -o a.out _filename_` 実行: `./a.out`
結果	WA
実行時間	-
コード長	20,714 bytes
記録記録タグの例: 初AC ショートコード純ショートコード純主流ショートコード最速実行時間
コンパイル時間	3,122 ms
コンパイル使用メモリ	228,344 KB
実行使用メモリ	11,904 KB
最終ジャッジ日時	2026-07-03 05:14:00
合計ジャッジ時間	24,948 ms
ジャッジサーバーID （参考情報）	judge1_0 / judge3_1
このコードへのチャレンジ
（要ログイン）
ファイルパターン	結果
sample	AC * 1 WA * 1
other	OLE * 7
権限があれば一括ダウンロードができます
ソースコード

raw source code
#pragma GCC optimize("O3")
#pragma GCC optimize("unroll-loops")
#include<iostream>
#include<string>
#include<cstdio>
#include<vector>
#include<cmath>
#include<algorithm>
#include<functional>
#include<iomanip>
#include<queue>
#include<ciso646>
#include<random>
#include<map>
#include<set>
#include<bitset>
#include<stack>
#include<unordered_map>
#include<unordered_set>
#include<utility>
#include<cassert>
#include<complex>
#include<numeric>
#include<array>
#include<chrono>
using namespace std;

//#define int long long
typedef long long ll;

typedef unsigned long long ul;
typedef unsigned int ui;
//ll mod = 1;
constexpr ll mod = 998244353;
//constexpr ll mod = 1000000007;
const int mod17 = 1000000007;
const ll INF = (ll)mod17 * mod17;
typedef pair<int, int>P;

#define rep(i,n) for(int i=0;i<n;i++)
#define per(i,n) for(int i=n-1;i>=0;i--)
#define Rep(i,sta,n) for(int i=sta;i<n;i++)
#define rep1(i,n) for(int i=1;i<=n;i++)
#define per1(i,n) for(int i=n;i>=1;i--)
#define Rep1(i,sta,n) for(int i=sta;i<=n;i++)
#define all(v) (v).begin(),(v).end()
typedef pair<ll, ll> LP;

using ld = double;
typedef pair<ld, ld> LDP;
const ld eps = 1e-10;
const ld pi = acosl(-1.0);

template<typename T>
void chmin(T& a, T b) {
    a = min(a, b);
}
template<typename T>
void chmax(T& a, T b) {
    a = max(a, b);
}
template<typename T>
vector<T> vmerge(vector<T>& a, vector<T>& b) {
    vector<T> res;
    int ida = 0, idb = 0;
    while (ida < a.size() || idb < b.size()) {
        if (idb == b.size()) {
            res.push_back(a[ida]); ida++;
        }
        else if (ida == a.size()) {
            res.push_back(b[idb]); idb++;
        }
        else {
            if (a[ida] < b[idb]) {
                res.push_back(a[ida]); ida++;
            }
            else {
                res.push_back(b[idb]); idb++;
            }
        }
    }
    return res;
}
template<typename T>
void cinarray(vector<T>& v) {
    rep(i, v.size())cin >> v[i];
}
template<typename T>
void coutarray(vector<T>& v) {
    rep(i, v.size()) {
        if (i > 0)cout << " "; cout << v[i];
    }
    cout << "\n";
}
ll mod_pow(ll x, ll n, ll m = mod) {
    if (n < 0) {
        ll res = mod_pow(x, -n, m);
        return mod_pow(res, m - 2, m);
    }
    if (abs(x) >= m)x %= m;
    if (x < 0)x += m;
    //if (x == 0)return 0;
    ll res = 1;
    while (n) {
        if (n & 1)res = res * x % m;
        x = x * x % m; n >>= 1;
    }
    return res;
}
//mod should be <2^31
struct modint {
    int n;
    modint() :n(0) { ; }
    modint(ll m) {
        if (m < 0 || mod <= m) {
            m %= mod; if (m < 0)m += mod;
        }
        n = m;
    }
    operator int() { return n; }
};
bool operator==(modint a, modint b) { return a.n == b.n; }
bool operator<(modint a, modint b) { return a.n < b.n; }
modint operator+=(modint& a, modint b) { a.n += b.n; if (a.n >= mod)a.n -= (int)mod; return a; }
modint operator-=(modint& a, modint b) { a.n -= b.n; if (a.n < 0)a.n += (int)mod; return a; }
modint operator*=(modint& a, modint b) { a.n = ((ll)a.n * b.n) % mod; return a; }
modint operator+(modint a, modint b) { return a += b; }
modint operator-(modint a, modint b) { return a -= b; }
modint operator*(modint a, modint b) { return a *= b; }
modint operator^(modint a, ll n) {
    if (n == 0)return modint(1);
    modint res = (a * a) ^ (n / 2);
    if (n % 2)res = res * a;
    return res;
}

ll inv(ll a, ll p) {
    return (a == 1 ? 1 : (1 - p * inv(p % a, a)) / a + p);
}
modint operator/(modint a, modint b) { return a * modint(inv(b, mod)); }
modint operator/=(modint& a, modint b) { a = a / b; return a; }
const int max_n = 1 << 20;
modint fact[max_n], factinv[max_n];
void init_f() {
    fact[0] = modint(1);
    for (int i = 0; i < max_n - 1; i++) {
        fact[i + 1] = fact[i] * modint(i + 1);
    }
    factinv[max_n - 1] = modint(1) / fact[max_n - 1];
    for (int i = max_n - 2; i >= 0; i--) {
        factinv[i] = factinv[i + 1] * modint(i + 1);
    }
}
modint comb(int a, int b) {
    if (a < 0 || b < 0 || a < b)return 0;
    return fact[a] * factinv[b] * factinv[a - b];
}
modint combP(int a, int b) {
    if (a < 0 || b < 0 || a < b)return 0;
    return fact[a] * factinv[a - b];
}

ll gcd(ll a, ll b) {
    a = abs(a); b = abs(b);
    if (a < b)swap(a, b);
    while (b) {
        ll r = a % b; a = b; b = r;
    }
    return a;
}
template<typename T>
void addv(vector<T>& v, int loc, T val) {
    if (loc >= v.size())v.resize(loc + 1, 0);
    v[loc] += val;
}
/*const int mn = 2000005;
bool isp[mn];
vector<int> ps;
void init() {
    fill(isp + 2, isp + mn, true);
    for (int i = 2; i < mn; i++) {
        if (!isp[i])continue;
        ps.push_back(i);
        for (int j = 2 * i; j < mn; j += i) {
            isp[j] = false;
        }
    }
}*/

//[,val)
template<typename T>
auto prev_itr(set<T>& st, T val) {
    auto res = st.lower_bound(val);
    if (res == st.begin())return st.end();
    res--; return res;
}

//[val,)
template<typename T>
auto next_itr(set<T>& st, T val) {
    auto res = st.lower_bound(val);
    return res;
}
using mP = pair<modint, modint>;
mP operator+(mP a, mP b) {
    return { a.first + b.first,a.second + b.second };
}
mP operator+=(mP& a, mP b) {
    a = a + b; return a;
}
mP operator-(mP a, mP b) {
    return { a.first - b.first,a.second - b.second };
}
mP operator-=(mP& a, mP b) {
    a = a - b; return a;
}
LP operator+(LP a, LP b) {
    return { a.first + b.first,a.second + b.second };
}
LP operator+=(LP& a, LP b) {
    a = a + b; return a;
}
LP operator-(LP a, LP b) {
    return { a.first - b.first,a.second - b.second };
}
LP operator-=(LP& a, LP b) {
    a = a - b; return a;
}
P operator-(P a, P b) {
    return { a.first - b.first,a.second - b.second };
}
P operator+(P a, P b) {
    return { a.first + b.first,a.second + b.second };
}

mt19937 mt(time(0));

const string drul = "DRUL";
string senw = "SENW";
//DRUL,or SENW
//int dx[4] = { 1,0,-1,0 };
//int dy[4] = { 0,1,0,-1 };

//------------------------------------

int get_premitive_root() {
	int primitive_root = 0;
	if (!primitive_root) {
		primitive_root = [&]() {
			set<int> fac;
			int v = mod - 1;
			for (ll i = 2; i * i <= v; i++) while (v % i == 0) fac.insert(i), v /= i;
			if (v > 1) fac.insert(v);
			for (int g = 1; g < mod; g++) {
				bool ok = true;
				for (auto i : fac) if (mod_pow(g, (mod - 1) / i) == 1) { ok = false; break; }
				if (ok) return g;
			}
			return -1;
		}();
	}
	return primitive_root;
}
const int proot = get_premitive_root();
int bsf(int x) {
	int res = 0;
	while (!(x & 1)) {
		res++; x >>= 1;
	}
	return res;
}
int ceil_pow2(int n) {
	int x = 0;
	while ((1 << x) < n) x++;
	return x;
}
using poly = vector<modint>;
void butterfly(poly& a) {
	int n = int(a.size());
	int g = proot;
	int h = ceil_pow2(n);

	static bool first = true;
	static modint sum_e[30];  // sum_e[i] = ies[0] * ... * ies[i - 1] * es[i]
	if (first) {
		first = false;
		modint es[30], ies[30];  // es[i]^(2^(2+i)) == 1
		int cnt2 = bsf(mod - 1);
		modint e = mod_pow(g, (mod - 1) >> cnt2);
		modint ie = (modint)1 / e;
		for (int i = cnt2; i >= 2; i--) {
			// e^(2^i) == 1
			es[i - 2] = e;
			ies[i - 2] = ie;
			e *= e;
			ie *= ie;
		}
		modint now = 1;
		for (int i = 0; i < cnt2 - 2; i++) {
			sum_e[i] = es[i] * now;
			now *= ies[i];
		}
	}
	for (int ph = 1; ph <= h; ph++) {
		int w = 1 << (ph - 1), p = 1 << (h - ph);
		modint now = 1;
		for (int s = 0; s < w; s++) {
			int offset = s << (h - ph + 1);
			for (int i = 0; i < p; i++) {
				auto l = a[i + offset];
				auto r = a[i + offset + p] * now;
				a[i + offset] = l + r;
				a[i + offset + p] = l - r;
			}
			now *= sum_e[bsf(~(unsigned int)(s))];
		}
	}
}

void butterfly_inv(poly& a) {
	int n = int(a.size());
	int g = proot;
	int h = ceil_pow2(n);

	static bool first = true;
	static modint sum_ie[30];  // sum_ie[i] = es[0] * ... * es[i - 1] * ies[i]
	if (first) {
		first = false;
		modint es[30], ies[30];  // es[i]^(2^(2+i)) == 1
		int cnt2 = bsf(mod - 1);
		modint e = mod_pow(g, (mod - 1) >> cnt2);
		modint ie = (modint)1 / e;
		for (int i = cnt2; i >= 2; i--) {
			// e^(2^i) == 1
			es[i - 2] = e;
			ies[i - 2] = ie;
			e *= e;
			ie *= ie;
		}
		modint now = 1;
		for (int i = 0; i < cnt2 - 2; i++) {
			sum_ie[i] = ies[i] * now;
			now *= es[i];
		}
	}

	for (int ph = h; ph >= 1; ph--) {
		int w = 1 << (ph - 1), p = 1 << (h - ph);
		modint inow = 1;
		for (int s = 0; s < w; s++) {
			int offset = s << (h - ph + 1);
			for (int i = 0; i < p; i++) {
				auto l = a[i + offset];
				auto r = a[i + offset + p];
				a[i + offset] = l + r;
				a[i + offset + p] =
					(unsigned long long)(mod + (ll)l - (ll)r) *
					(ll)inow;
			}
			inow *= sum_ie[bsf(~(unsigned int)(s))];
		}
	}
}


poly multiply(poly g, poly h) {
	int n = g.size();
	int m = h.size();
	if (n == 0 || m == 0)return {};
	if (min(g.size(), h.size()) < 60) {
		poly res(g.size() + h.size() - 1);
		rep(i, g.size())rep(j, h.size()) {
			res[i + j] += g[i] * h[j];
		}
		return res;
	}
	int z = 1 << ceil_pow2(n + m - 1);
	g.resize(z);
	butterfly(g);
	h.resize(z);
	butterfly(h);
	rep(i, z) {
		g[i] *= h[i];
	}
	butterfly_inv(g);
	g.resize(n + m - 1);
	modint iz = (modint)1 / (modint)z;
	rep(i, n + m - 1) {
		g[i] *= iz;
	}
	return g;
}
struct FormalPowerSeries :vector<modint> {
	using vector<modint>::vector;
	using fps = FormalPowerSeries;
	void shrink() {
		while (this->size() && this->back() == (modint)0)this->pop_back();
	}

	fps operator+(const fps& r)const { return fps(*this) += r; }
	fps operator+(const modint& v)const { return fps(*this) += v; }
	fps operator-(const fps& r)const { return fps(*this) -= r; }
	fps operator-(const modint& v)const { return fps(*this) -= v; }
	fps operator*(const fps& r)const { return fps(*this) *= r; }
	fps operator*(const modint& v)const { return fps(*this) *= v; }


	fps& operator+=(const fps& r) {
		if (r.size() > this->size())this->resize(r.size());
		rep(i, r.size())(*this)[i] += r[i];
		shrink();
		return *this;
	}
	fps& operator+=(const modint& v) {
		if (this->empty())this->resize(1);
		(*this)[0] += v;
		shrink();
		return *this;
	}
	fps& operator-=(const fps& r) {
		if (r.size() > this->size())this->resize(r.size());
		rep(i, r.size())(*this)[i] -= r[i];
		shrink();
		return *this;
	}
	fps& operator-=(const modint& v) {
		if (this->empty())this->resize(1);
		(*this)[0] -= v;
		shrink();
		return *this;
	}
	fps& operator*=(const fps& r) {
		if (this->empty() || r.empty())this->clear();
		else {
			poly ret = multiply(*this, r);
			*this = fps(all(ret));
		}
		shrink();
		return *this;
	}
	fps& operator*=(const modint& v) {
		for (auto& x : (*this))x *= v;
		shrink();
		return *this;
	}
	fps operator-()const {
		fps ret = *this;
		for (auto& v : ret)v = -v;
		return ret;
	}

	modint sub(modint x) {
		modint t = 1;
		modint res = 0;
		rep(i, (*this).size()) {
			res += t * (*this)[i];
			t *= x;
		}
		return res;
	}
	fps pre(int sz)const {
		fps ret(this->begin(), this->begin() + min((int)this->size(), sz));
		ret.shrink();
		return ret;
	}
	fps integral() const {
		const int n = (int)this->size();
		fps ret(n + 1);
		ret[0] = 0;
		for (int i = 0; i < n; i++) ret[i + 1] = (*this)[i] / (modint)(i + 1);
		return ret;
	}
	fps inv(int deg = -1)const {
		const int n = this->size();
		if (deg == -1)deg = n;
		fps ret({ (modint)1 / (*this)[0] });
		for (int i = 1; i < deg; i <<= 1) {
			ret = (ret + ret - ret * ret * pre(i << 1)).pre(i << 1);
		}
		ret = ret.pre(deg);
		ret.shrink();
		return ret;
	}
	fps diff() const {
		const int n = (int)this->size();
		fps ret(max(0, n - 1));
		for (int i = 1; i < n; i++) ret[i - 1] = (*this)[i] * (modint)i;
		return ret;
	}
	// F(0) must be 1
	fps log(int deg = -1) const {
		assert((*this)[0] == 1);
		const int n = (int)this->size();
		if (deg == -1) deg = n;
		return (this->diff() * this->inv(deg)).pre(deg - 1).integral();
	}
	// F(0) must be 0
	fps exp(int deg = -1)const {
		assert((*this)[0] == 0);
		const int n = (int)this->size();
		if (deg == -1)deg = n;
		fps ret = { 1 };
		for (int i = 1; i < deg; i <<= 1) {
			ret = (ret * (pre(i << 1) + 1 - ret.log(i << 1))).pre(i << 1);
		}
		//cout << "!!!! " << ret.size() << "\n";
		return ret.pre(deg);
	}
	fps div(fps g) {
		assert(g.size() && g.back() != (modint)0);
		fps f = *this;
		if (f.size() < g.size())return {};
		int dif = f.size() - g.size();
		reverse(all(f));
		reverse(all(g));
		g = g.inv(dif + 1);
		fps fg = f * g;
		fps ret(dif + 1);
		rep(i, fg.size()) {
			int id = i - dif;
			if (-dif <= id && id <= 0) {
				ret[-id] = fg[i];
			}
		}
		return ret;
	}
	fps divr(fps g) {
		fps ret = (*this) - g * (*this).div(g);
		ret.shrink();
		return ret;
	}
};
using fps = FormalPowerSeries;

//f(r^0),f(r^1),...,f(r^n)
vector<modint> Multipoint_Evaluation(fps c, modint r, int n) {
	vector<modint> res(n + 1, 0);
	if (c.empty()) {
		return res;
	}
	if (r == (modint)0) {
		rep(i, n + 1)res[i] = c[0];
		return res;
	}
	int sz = c.size() + n;
	vector<modint> rr(sz);
	rr[0] = 1;
	rep(i, sz - 1)rr[i + 1] = rr[i] * r;
	vector<modint> irr(sz);
	modint ir = (modint)1 / r;
	irr[0] = 1;
	rep(i, sz - 1)irr[i + 1] = irr[i] * ir;

	vector<modint> coef(sz);
	coef[0] = 1;
	rep(i, sz - 1) {
		coef[i + 1] = coef[i] * rr[i];
	}
	vector<modint> icoef(sz);
	icoef[0] = 1;
	rep(i, sz - 1) {
		icoef[i + 1] = icoef[i] * irr[i];
	}
	fps f(c.size());
	rep(i, c.size()) {
		f[i] = (modint)c[i] * icoef[i];
	}
	fps g(sz);
	rep(i, sz) {
		g[i] = coef[i];
	}
	reverse(all(f));
	f *= g;
	rep(i, n + 1) {
		modint val = icoef[i];
		int loc = i + c.size() - 1;
		if (loc < f.size())val *= f[loc];
		else val = 0;
		res[i] = val;
	}
	return res;
}
vector<modint> Multipoint_Evaluation(fps c, vector<modint> p) {
	int n = p.size();
	vector<modint> ret(n);
	int sz = 1;
	while (sz < n)sz *= 2;
	vector<fps> f(2 * sz - 1);
	function<void(int, int, int)> dfs = [&](int k, int l, int r) {
		if (l + 1 == r) {
			f[k] = { -p[l],1 };
		}
		else {
			dfs(2 * k + 1, l, (l + r) / 2);
			dfs(2 * k + 2, (l + r) / 2, r);
			f[k] = f[2 * k + 1] * f[2 * k + 2];
		}
	};
	dfs(0, 0, n);
	vector<fps> g(2 * sz - 1);
	function<void(int, int, int)> invdfs = [&](int k, int l, int r) {
		if (k == 0) {
			g[k] = c.divr(f[k]);
		}
		else {
			g[k] = g[(k - 1) / 2].divr(f[k]);
		}
		if (r - l <= 100) {
			Rep(i, l, r) {
				ret[i] = g[k].sub(p[i]);
			}
		}
		else {
			invdfs(2 * k + 1, l, (l + r) / 2);
			invdfs(2 * k + 2, (l + r) / 2, r);
		}
	};
	invdfs(0, 0, n);
	return ret;
}

//reference: https://37zigen.com/berlekamp-massey/
struct berlekamp_massey {
	fps a, b;
	berlekamp_massey(int n, fps f) {
		f.resize(2 * n);
		f.shrink();
		//deg(a)<n,deg(b)<=n
		fps a1 = { 1 }, b1, c1 = f;
		fps a2, b2 = { 1 }, c2; c2.resize(2 * n + 1); c2[2 * n] = 1;
		while (true) {
			if (c1.size() > c2.size()) {
				swap(c1, c2);
				swap(a1, a2);
				swap(b1, b2);
			}
			if (c1.size() <= n)break;
			int dif = c2.size() - c1.size();
			modint coef = c2.back() / c1.back();
			fps d1, d2, d3;
			d1.resize(dif);
			d2.resize(dif);
			d3.resize(dif);
			rep(i, a1.size())d1.push_back(a1[i] * coef);
			rep(i, b1.size())d2.push_back(b1[i] * coef);
			rep(i, c1.size())d3.push_back(c1[i] * coef);
			a2 -= d1;
			b2 -= d2;
			c2 -= d3;
		}
		swap(a, c1);
		swap(b, a1);

	}
	//g=x^{-n}*a mod b
	ll calc(ll n) {
		assert(b[0] != (modint)0);
		modint coef = (modint)1 / b[0];
		rep(i, a.size())a[i] *= coef;
		rep(i, b.size())b[i] *= coef;
		fps rx = b;
		coef = (modint)-1 / b[0];
		rx.erase(rx.begin());
		rep(i, rx.size())rx[i] *= coef;
		//rx^n
		fps z = a;
		while (n) {
			if (n & 1) {
				z *= rx; z = z.divr(b);
			}
			n >>= 1;
			if (n == 0)break;
			rx *= rx; rx = rx.divr(b);
		}
		if (z.empty())return 0;
		return z[0] / b[0];
	}
};
fps allprod(vector<fps> f) {
	while (f.size() > 1) {
		vector<fps> nf;
		for (int i = 0; i + 1 < f.size(); i += 2) {
			nf.push_back(f[i] * f[i + 1]);
		}
		if (f.size() % 2)nf.push_back(f.back());
		swap(f, nf);
	}
	return f[0];
}

//https://maspypy.com/%e5%a4%9a%e9%a0%85%e5%bc%8f%e3%83%bb%e5%bd%a2%e5%bc%8f%e7%9a%84%e3%81%b9%e3%81%8d%e7%b4%9a%e6%95%b0-%e9%ab%98%e9%80%9f%e3%81%ab%e8%a8%88%e7%ae%97%e3%81%a7%e3%81%8d%e3%82%8b%e3%82%82%e3%81%ae#toc40
//sum_{i}(a_i*exp(b_ix))をm次まで計算
//verified with https://atcoder.jp/contests/arc154/tasks/arc154_f
fps calc_expsum(vector<LP> ps, int m) {
	using pfps = pair<fps, fps>;
	vector<pfps> vp;
	rep(i, ps.size()) {
		modint a = ps[i].first;
		modint b = ps[i].second;
		fps pa = { a };
		fps pb = { 1,-b };
		vp.push_back({ pa,pb });
	}
	while (vp.size() > 1) {
		vector<pfps> nvp;
		for (int i = 0; i + 1 < vp.size(); i += 2) {
			pfps& a = vp[i];
			pfps& b = vp[i + 1];
			fps pa = a.first * b.second + a.second * b.first;
			if (pa.size() > m + 1)pa.resize(m + 1);
			fps pb = a.second * b.second;
			if (pb.size() > m + 1)pb.resize(m + 1);
			nvp.push_back({ pa,pb });
		}
		if (vp.size() & 1)nvp.push_back(vp.back());
		swap(vp, nvp);
	}
	fps las = vp[0].first * vp[0].second.inv(m + 1);
	fps res(m + 1);
	rep(i, m + 1) {
		if (i < las.size())res[i] = las[i];
		res[i] *= factinv[i];
	}
	return res;
}

struct Data {
	fps f = {};
	modint ad = 0;
};
void solve() {
	int m, k, r; cin >> m >> k >> r;
	if (k == 1) {
		cout << r << "\n"; return;
	}
	modint pp = (modint)1 / (modint)k;
	auto normalize_data = [&](Data& d) {
		if (d.f.size() > k) {
			vector<modint> ad(d.f.size());
			while (d.f.size() > k) {
				int i = d.f.size() - 1;
				modint val = d.f[i] + ad[i];
				ad[i - 1] += ad[i];
				d.ad += val;
				val *= pp;
				if(i>=k+1)ad[i - k - 1] -= val;
				ad[i - 1] += val;
				d.f.pop_back();
			}
			per(i, k) {
				if (i > 0)ad[i - 1] += ad[i];
				d.f[i] += ad[i];
			}
		}
	};
	auto add = [&](Data& d, int x) {
		assert(d.f.size() <= k);
		d.f.resize(k + x);
		per(i, k) {
			d.f[i + x] = d.f[i];
			d.f[i] = 0;
		}
		normalize_data(d);
	};
	auto mul2 = [&](Data& d) {
		Data res;
		res.f = d.f * d.f;
		res.ad = d.ad;
		rep(i, k)if (i < d.f.size())res.ad += d.f[i] * d.ad;
		normalize_data(res);
		swap(d, res);
	};
	auto get_data = [&](int x) {
		Data res;
		res.f.resize(k);
		if (x < k) {
			res.f[x] = 1;
		}
		else {
			int cop = x;
			vector<int> vs;
			vs.push_back(cop);
			while (cop > k) {
				if (cop % 2) {
					cop--;
				}
				else {
					if (cop / 2 >= k) {
						cop /= 2;
					}
					else {
						cop = k;
					}
				}
				vs.push_back(cop);
			}
			fill(all(res.f), pp);
			res.ad = 1;
			int cur = k;
			vs.pop_back();
			while (vs.size()) {
				int las = vs.back();
				vs.pop_back();
				if (cur * 2 == las) {
					mul2(res);
				}
				else {
					add(res, las - cur);
				}
				cur = las;
			}
			assert(cur == x);
		}
		return res;
	};

	//[adl,adr)
	/*auto get_sumdata = [&](Data& d, int adl, int adr) {
		Data res;
		d.f.resize(k);
		vector<modint> sums(k + 1);
		rep(i, k)sums[i + 1] = sums[i] + d.f[i];
		res.f.resize(k + adr - 1);
		rep(i, k + adr - 1) {
			int le = i - (adr - 1);
			int ri = i - adl + 1;
			chmax(le, 0);
			chmin(ri, k);
			res.f[i] = sums[ri] - sums[le];
		}
		normalize_data(res);
		return res;
	};*/
	//int le = m + 1 - k;
	Data d = get_data(m - 1);
	/*rep(i, k)d.f[i] *= 4;
	d.ad *= 4;
	coutarray(d.f);
	cout << d.ad << "\n";*/
	Data rsum = d;
	Data cur = d;
	vector<Data> mem(k);
	for (int i = k - 1; i > 0; i--) {
		Data z = rsum;
		z.f.resize(i+1);
		for (int j = 0; j < i; j++) {
			z.f[j] += 1;
		}
		rep(j, i+1)z.f[j] *= pp;
		z.ad *= pp;
		//for(ll &val:z.f)val*=
		//rep(j, z.f.size())z.f[j] *= 8;
		coutarray(z.f);
		z.f[i] -= 1;
		//cout << (modint)8 * z.f[i] << "\n";
		z.ad += 1;
		assert(z.f[i] != (modint)0);
		modint coef = (modint)-1 / (modint)z.f[i];
		rep(j, i) {
			z.f[j] *= coef;
			z.ad *= coef;
		}
		z.f.pop_back();
		z.f.shrink_to_fit();
		mem[i] = z;
		rep(j, i) {
			rsum.f[j] += rsum.f[i] * z.f[j];
			cur.f[j] += cur.f[i] * z.f[j];
		}
		rsum.ad += rsum.f[i] * z.ad;
		cur.ad += cur.f[i] * z.ad;
		rsum.f.pop_back();
		cur.f.pop_back();
		//curを退化
		assert(z.f[0] != (modint)0);
		modint vlas = cur.f[i - 1];
		Data ncur;
		ncur.f.resize(i);
		ncur.f[i - 1] = vlas / (modint)z.f[0];
		rep(j, i - 1) {
			ncur.f[j] = cur.f[j + 1] - z.f[j + 1] * ncur.f[i - 1];
		}
		ncur.ad = cur.ad - z.ad * ncur.f[i - 1];
		swap(cur, ncur);
		rep(j, i) {
			rsum.f[j] += cur.f[j];
			rsum.ad += cur.ad;
		}
	}
	vector<modint> orival(k);
	for (int i = 1; i < k; i++) {
		orival[i] = mem[i].ad;
		rep(j, i)orival[i] += orival[j] * mem[i].f[j];
	}
	Data dans = get_data(r);
	modint ans = dans.ad;
	rep(i, dans.f.size())ans += dans.f[i] * orival[i];
	cout << ans << "\n";
}

signed main() {
    ios::sync_with_stdio(false);
    cin.tie(0);
    //cout << fixed<<setprecision(10);
    //init_f();
    //init();
    //while(true)
    //expr();
    //int t; cin >> t; rep(i, t)
    solve();
    return 0;
}

//嘘です
yukicoder

結果

ソースコード