multi-precision seq command

multi-precision seq command

%./mpseq

12000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001





source code

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define DIE() die(__FILE__, __LINE__, __func__)
void
die(const char *file, const int line, const char *func)
{
   fprintf(stderr, "%s:%d: died in function %s.\n", file, line, func);
   exit(1);
}

#define max(a, b) (a > b ? a : b)

typedef unsigned long unit;

// array is BCD (binary coded decimal), LE (little endian)
// len is the number of UNITs
struct mp {
   unit   *array;
   size_t  len;
};
#define MP_UNIT     1000
#define MP_UNIT_LOG 3

// pass uninitialised mp
void
mp_init(struct mp *mp, size_t len)
{
   mp->array = malloc(len * sizeof *mp->array);
   mp->len   = len;

   if (!mp->array) DIE();
   for (size_t i = 0; i < len; i++)
      mp->array[i] = 0;
}

// pass used mp
void
mp_free(struct mp *mp)
{
   free(mp->array);
   mp->array = NULL;
   mp->len = 0;
}

// pass uninitialised mp as to
void
mp_copy(struct mp *to, const struct mp *from)
{
   to->array = malloc(from->len * sizeof *from->array);
   to->len   = from->len;

   if (!to->array) DIE();
   for (size_t i = 0; i < from->len; i++)
      to->array[i] = from->array[i];
}

// pass uninitialised mp
void
mp_read(struct mp *mp, const char *s)
{
   const size_t len_s = strlen(s);
   const size_t len   = (len_s - 1) / MP_UNIT_LOG + 1;
   if (!len_s) DIE();

   mp_init(mp, len);
   unit *a = mp->array;

   for (int i = 0; i < len_s; i++) {
      size_t pos = (len_s - i - 1) / MP_UNIT_LOG;
      if (s[i] < '0' || s[i] > '9') DIE();
      int n = s[i] - '0';
      a[pos] = a[pos] * 10 + n; }
}

void
mp_print(const struct mp *mp)
{
   int f = 0;

   for (int i = 0; i < mp->len; i++) {
      unit a_i = mp->array[mp->len - i - 1];
      char buf[MP_UNIT_LOG];
      for (int j = 0; j < MP_UNIT_LOG; j++) {
         int pos = MP_UNIT_LOG - j - 1;
         buf[pos] = a_i % 10 + '0';
         a_i /= 10; }
      for (int j = 0; j < MP_UNIT_LOG; j++) {
         if (!f && buf[j] != '0') f = 1;
         if (f) putchar(buf[j]); } }
   putchar('\n');
}

void
mp_dump(const struct mp *mp)
{
   for (int i = 0; i < mp->len; i++) {
      unsigned long n = mp->array[i];
      printf("[%ld]", n); }
   putchar('\n');
}

// pass uninitialised mp as ans
void
mp_add(struct mp *ans, const struct mp *mp0, const struct mp *mp1)
{
   int c = 0;
   int len = max(mp0->len, mp1->len) + 1;

   mp_init(ans, len);

   for (int i = 0; i < len; i++) {
      const unit n0 = i < mp0->len ? mp0->array[i] : 0;
      const unit n1 = i < mp1->len ? mp1->array[i] : 0;
      const unit nt = n0 + n1 + c;
      const unit n = nt >= MP_UNIT ? nt - MP_UNIT : nt;
      c = nt >= MP_UNIT ? 1 : 0;
      ans->array[i] = n; }

   if (!c) ans->len--;
}

int
mp_cmp(const struct mp *mp0, const struct mp *mp1)
{
   int r = 0;
   int len = max(mp0->len, mp1->len);

   for (int i = 0; i < len; i++) {
      const unit n0 = i < mp0->len ? mp0->array[i] : 0;
      const unit n1 = i < mp1->len ? mp1->array[i] : 0;
      if (n0 < n1) r = -1;
      if (n0 > n1) r =  1; }
   return r;
}

void
usage(void)
{
   fputs("usage: mpseq [first [inc]] last\n", stderr);
}

int
main(int argc, char **argv)
{
   const char *s_first, *s_inc, *s_last;
   switch (argc - 1) {
   case 1: s_first =     "1", s_inc =     "1", s_last = argv[1]; break;
   case 2: s_first = argv[1], s_inc =     "1", s_last = argv[2]; break;
   case 3: s_first = argv[1], s_inc = argv[2], s_last = argv[3]; break;
   default:
      usage(); exit(1);
   }

   struct mp first, inc, last;
   mp_read(&first, s_first);
   mp_read(&inc,   s_inc);
   mp_read(&last,  s_last);

   for (;;) {
      if (mp_cmp(&first, &last) > 0) break;
      mp_print(&first);
      struct mp tmp;
      mp_copy(&tmp, &first);
      mp_free(&first);
      mp_add(&first, &tmp, &inc); }

   return 0;
}

BUGS

GNU seq supports negative value and decimal point but mpseq doesn’t.

なんでこれを書いたか

seq では終わりの値を明示する必要があるため、無限列が出力できません。 では実用上無限に等しいくらいの多桁を指定したらどうだろうと考えました。 実際やってみたら上手く行かない場合があったのですが、 そういう自分はどうなのか? 多桁やれるのか? の確認のために書きました。 実務上は、多桁の扱えるライブラリや言語を使えば良いです。

確認用に使用した seq のバージョンは下記の通りです。

% seq --version
seq (GNU coreutils) 9.1
Copyright (C) 2022 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Ulrich Drepper.

バージョン表記内にもある通り、GNU seq は coreutils の一部ということも あり、GNU MP のようなライブラリは使わず libc 以外に依存していないよう です。

% ldd =seq
        linux-vdso.so.1 (0x00007fffc13fc000)
        libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007f60d2e00000)
        /lib64/ld-linux-x86-64.so.2 (0x00007f60d319f000)

手始めに小さい桁の数値を指定してみます。

% seq 10
1
2
3
4
5
6
7
8
9
10
% seq 10 12
10
11
12

問題なく表示されています。

上記のように、最初と最後の数値を指定するとその範囲だけを出力させること ができるので、この方法で大きな数値を少しだけ出力させてみます。

% seq 10000000000 10000000001
10000000000
10000000001
% seq 100000000000000000000 100000000000000000001
100000000000000000000
100000000000000000001
% seq 1000000000000000000000000000000 1000000000000000000000000000001
1000000000000000000000000000000
1000000000000000000000000000001

問題なさそうです。

% seq 10000000000000000000000000000000000000000 10000000000000000000000000000000000000001
10000000000000000000000000000000000000000
10000000000000000000000000000000000000001
% seq 100000000000000000000000000000000000000000000000000 100000000000000000000000000000000000000000000000001
100000000000000000000000000000000000000000000000000
100000000000000000000000000000000000000000000000001
% seq 1000000000000000000000000000000000000000000000000000000000000 1000000000000000000000000000000000000000000000000000000000001
1000000000000000000000000000000000000000000000000000000000000
1000000000000000000000000000000000000000000000000000000000001
% seq 10000000000000000000000000000000000000000000000000000000000000000000000 10000000000000000000000000000000000000000000000000000000000000000000001
10000000000000000000000000000000000000000000000000000000000000000000000
10000000000000000000000000000000000000000000000000000000000000000000001
% seq 100000000000000000000000000000000000000000000000000000000000000000000000000000000 100000000000000000000000000000000000000000000000000000000000000000000000000000001
100000000000000000000000000000000000000000000000000000000000000000000000000000000
100000000000000000000000000000000000000000000000000000000000000000000000000000001
% seq 1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001
1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001
% seq 10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001
10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001

コマンドラインが画面幅を越えてしまうので、この辺で止めておきます。

なお、多桁の数値をコマンドラインから打ち込むのは大変なので、コマンドを 生成してくれるスクリプトを書きました(怠惰)。下記のような感じです。

% python3 -q
>>> from mpseqgen import mpseqgen as m
>>> m(0)
seq 1 1
>>> m(1)
seq 10 11
>>> m(3)
seq 1000 1001
>>> m(10)
seq 10000000000 10000000001
>>> m(2 * 10)
seq 100000000000000000000 100000000000000000001
>>> 

seq にもう少し大きな値を渡してみましょう。

% python3 -q
>>> from mpseqgen import mpseqgen as m
>>> m(10**3)
seq
% seq| head
1
2
3
4
5
6
7
8
9
10

1000桁の数値でも文句を言わず受け取ってくれました。 ここでは head コマンドを使って出力の先頭だけ表示しています。

seq コマンドに3つ引数を渡すことで、増分を指定することが出来ます。 間隔を2にしてみましょう。

% seq 10 2 20
10
12
14
16
18
20

同様に多桁でも試してみます。1000桁。

% seq






これは少し誤差が出てしまうようです。桁を減らしてみます。100桁。

% seq 10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 20000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
9999999999999999999669353532207342619498699019828496079271391541752018669482644324418977840117055488
11999999999999999999792937997655229997980417525632429563352467392978607903501420494941338279742537728
13999999999999999999916522463103117376462136031436363047433543244205197137520196665463698719368019968
15999999999999999999091538133518910482033961028049125190380631381050858870927736307793234800983146496
18000000000000000000163691393998892133425573043044230015595694946658375605557749006508419598618984448
19999999999999999999338707064414685238997398039656992158542783083504037338965288648837955680234110976

少し減らしましたがまだ誤差が出ています。桁をもっと減らしてみたら解消す るでしょうか? まず20桁から10桁くらいを試してみます。

% python3 -q
>>> from mpseqgen import mpseqgen as m
>>> m(20)
seq 100000000000000000000 100000000000000000001
>>> m(16)
seq 10000000000000000 10000000000000001
>>> m(10)
seq 10000000000 10000000001
>>> 
% seq 100000000000000000000 20000000000000000000 200000000000000000000
100000000000000000000
120000000000000000000
140000000000000000000
160000000000000000000
180000000000000000000
200000000000000000000

20桁まで減らすと問題ないようです。16桁・10桁のテストはスキップします。 30桁付近だとどうでしょうか?

% python3 -q
>>> from mpseqgen import mpseqgen as m
>>> m(30)
seq 1000000000000000000000000000000 1000000000000000000000000000001
>>> m(32)
seq 100000000000000000000000000000000 100000000000000000000000000000001
>>> 
% seq 1000000000000000000000000000000 200000000000000000000000000000 2000000000000000000000000000000
1000000000000000000024696061952
1200000000000000000002147483648
1400000000000000000048318382080
1600000000000000000094489280512
1800000000000000000003221225472
1999999999999999999911953170432

30桁でだめなので少しずつ減らします。

% python3 -q
>>> from mpseqgen import mpseqgen as m
>>> m(28)
seq 10000000000000000000000000000 10000000000000000000000000001
>>> 
% seq 10000000000000000000000000000 2000000000000000000000000000 20000000000000000000000000000
9999999999999999999731564544
11999999999999999999463129088
13999999999999999999194693632
16000000000000000000000000000
17999999999999999999731564544
19999999999999999999463129088
% seq 1000000000000000000000000000 200000000000000000000000000 2000000000000000000000000000 
1000000000000000000000000000
1200000000000000000000000000
1400000000000000000000000000
1600000000000000000000000000
1800000000000000000000000000
2000000000000000000000000000

28桁と27桁の間が境界線のようです。 Python だったらこれくらいの桁は問題ないと思います……。

% python3 -q
>>> 10000000000000000000000000000 + 2000000000000000000000000000
12000000000000000000000000000
>>> n = 10000000000000000000000000000
>>> while n <= 20000000000000000000000000000:
...     print(n)
...     n += 2000000000000000000000000000
... 
10000000000000000000000000000
12000000000000000000000000000
14000000000000000000000000000
16000000000000000000000000000
18000000000000000000000000000
20000000000000000000000000000
% python3 -c 'print

% python3 -c 'print(10**1000 + 2 * 10**999)'


1000 桁でも問題ないですね。

dc は任意精度の計算が出来る電卓プログラムです。 dc を使ったシェルスクリプトを書いてみました。

case $# in
1)
  a=1 ; b=1 ; c=$1 ;;
2)
  a=$1; b=1 ; c=$2 ;;
3)
  a=$1; b=$2; c=$3 ;;
*)
  usage; exit 1;
esac

while true
do
  echo $a
  a=$(dc -e "$a $b + p")
  t=$(dc -e "$c $a - p")
  case $t in (-*) exit 0 ;; esac
done

28桁の場合を seq コマンドと並べてみます。

% seq         10000000000000000000000000000 2000000000000000000000000000 20000000000000000000000000000
9999999999999999999731564544
11999999999999999999463129088
13999999999999999999194693632
16000000000000000000000000000
17999999999999999999731564544
19999999999999999999463129088
% sh mpseq.sh 10000000000000000000000000000 2000000000000000000000000000 20000000000000000000000000000  
10000000000000000000000000000
12000000000000000000000000000
14000000000000000000000000000
16000000000000000000000000000
18000000000000000000000000000
20000000000000000000000000000

ただし、上記のスクリプトに1000桁の数値を渡すと、下記のような見たことのな いエラーが出て上手く処理できませんでした。

dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: dc: value overflows simple integer; punting...
dc: input base must be a number between 2 and 16 (inclusive)
dc: dc: stack empty
dc: dc: dc: dc: dc: stack empty
dc: dc: dc: dc: dc: dc: dc: stack empty
dc: dc: stack empty

dc の高度な機能を使って下記のように書き直したら直ったのですが、 あまり理解せずに書いているのでスタックが溢れるおそれがあります。

case $# in
1)
  a=1 ; b=1 ; c=$1 ;;
2)
  a=$1; b=1 ; c=$2 ;;
3)
  a=$1; b=$2; c=$3 ;;
*)
  usage; exit 1;
esac

dc -e "[p $b+ d$c!<a]sa $a lax"

GNU seq は負数や小数を扱える優れた点もあります。 今回書いたプログラムではこれらは対応していません。

% seq 10 -1 7
10
9
8
7
% seq -5 -3
-5
-4
-3
% seq 7.5 10
7.5
8.5
9.5