GAWK 指定表示長さでデータを改行する

UTF-8/Shift_JIS で記述された改行のないデータ(日本語混在)を、指定長さ「以下」で折り返します。
下記の例では区切り文字「","」最大表示長「"72"」を指定して改行付きデータに変換します。

別ページ "GAWK 文字列をバイト単位(表示長さ)で数える" より textf() のデータ版です。

wrap_test.txt　(カンマ区切り折り返しなし)

and,asort,asorti,atan2,bindtextdomain,close,compl,cos,dcgettext,dcngettext,delete,exp,fflush,gensub,getline,gsub,index,int,isarray,length,log,lshift,match,mktime,or,patsplit,print,printf,rand,rshift,sin,split,sprintf,sqrt,srand,strftime,strtonum,sub,substr,system,systime,tolower,toupper,typeof,xor

1:佐藤:ｻﾄｳ,2:鈴木:ｽｽﾞｷ,3:田中:ﾀﾅｶ,4:本田:ﾎﾝﾀﾞ,5:柏木:ｶｼﾜｷﾞ,6:桜田:ｻｸﾗﾀﾞ,7:井本:ｲﾓﾄ,8:庄司:ｼｮｳｼﾞ,9:岡本:ｵｶﾓﾄ,10:一木:ｲﾁｷﾞ,11:隅田:ｽﾐﾀﾞ,12:大西:ｵｵﾆｼ,13:西川:ﾆｼｶﾜ,14:川崎:ｶﾜｻｷ,15:久米:ｸﾒ,16:大木:ｵｵｷ,17:佐野:ｻﾉ,18:桜井:ｻｸﾗｲ,19:御手洗:ﾐﾀﾗｲ,20:本間:ﾎﾝﾏ,21:三崎:ﾐｻｷ,22:上田:ｳｴﾀﾞ,23:榎本:ｴﾉﾓﾄ,24:岡島:ｵｶｼﾞﾏ,25:柿本:ｶｷﾓﾄ,26:木下:ｷﾉｼﾀ,27:日下部:ｸｻｶﾍﾞ,28:古庄:ﾌﾙｼｮｳ,29:斉藤:ｻｲﾄｳ,30:篠原:ｼﾉﾊﾗ,31:須藤:ｽﾄﾞｳ,32:瀬川:ｾｶﾞﾜ,33:園田:ｿﾉﾀﾞ,34:立川:ﾀﾁｶﾜ,35:津守:ﾂﾓﾘ,36:出川:ﾃﾞｶﾞﾜ,37:戸田:ﾄﾀﾞ,38:夏目:ﾅﾂﾒ,39:二宮:ﾆﾉﾐﾔ,40:根本:ﾈﾓﾄ,41:野々村:ﾉﾉﾑﾗ,42:灰田:ﾊｲﾀﾞ,43:比嘉:ﾋｶﾞ,44:吹石:ﾌｷｲｼ,45:北条:ﾎｳｼﾞｮｳ,46:間宮:ﾏﾐﾔ,47:三重野:ﾐｴﾉ,48:武藤:ﾑﾄｳ,49:百崎:ﾓﾓｻｷ,50:若松:ﾜｶﾏﾂ,51:相田:ｱｲﾀﾞ,52:今宮:ｲﾏﾐﾔ,53:上野:ｳｴﾉ,54:江藤:ｴﾄｳ,55:小田:ｵﾀﾞ,56:梶原:ｶｼﾞﾜﾗ,57:木村:ｷﾑﾗ,58:久石:ﾋｻｲｼ,59:江上:ｴｶﾞﾐ,60:佐田:ｻﾀﾞ,61:篠塚:ｼﾉﾂﾞｶ,62:末広:ｽｴﾋﾛ,63:清原:ｷﾖﾊﾗ,64:梅沢:ｳﾒｻﾞﾜ,65:重岡:ｼｹﾞｵｶ,66:藤沢:ﾌｼﾞｻﾜ,67:塚原:ﾂｶﾊﾗ,68:山本:ﾔﾏﾓﾄ,69:石川:ｲｼｶﾜ,70:岡村:ｵｶﾑﾗ,71:足立:ｱﾀﾞﾁ,72:中島:ﾅｶｼﾏ

実行結果

Shift_JIS

UTF-8/MSYS2/GAWK5.0.1

awk_wrap_data.awk

BEGINFILE

   1 : #   awk_wrap_data.awk
   2 : #   指定表示長にて日本語混在データの折り返し(区切り文字単位)
   3 : #   試験コマンド gawk -f awk_wrap_data.awk wrap_test.txt "," "70"
   4 : 
   5 : #.  BEGINFILE: 読めないファイルをスキップ(引数をコマンドプロンプト風に)
   6 : BEGINFILE {
   7 :     if (ERRNO) nextfile;
   8 : }

BEGIN

   9 : #.  BEGIN: 各種初期化
  10 : BEGIN {
  11 :     _asc_init();
  12 :     sep = ARGV[2];
  13 :     if (!sep) sep = ",";
  14 :     max_width = ARGV[3];
  15 :     if (!max_width || max_width < 2) max_width = 80;    #最小値2
  16 :     lim = max_width;                        #調整 ex) -2(継続文字と改行文字);
  17 : }

ACTION_01

  18 : #.  ACTION_01: データ折り返し処理
  19 : FILENAME == ARGV[1] {
  20 :     ct = wrap_data($0, lim, sep, a);
  21 :     for (i = 1; i < ct; i++) print a[i];    #ex) 継続記号等を付け足す
  22 :     print a[ct];                            #ex) 最終データ
  23 : }

wrap_data()

  24 : #.  wrap_data(): データを指定表示長以内で改行(Shift_JIS/UTF-8)
  25 : #   戻値:       分割数
  26 : #   str:in:     入力文字列(日本語データ可)
  27 : #   col:in:     改行桁
  28 : #   sep:in:     区切り文字
  29 : #   ar:out:     出力配列
  30 : function wrap_data(str, col, sep, ar,    lenb,\
  31 :                     ch, i, si, rp, rem, c) {
  32 :     delete ar;
  33 :     si = 1;
  34 :     while (ch = substr(str, ++i, 1)) {
  35 :         if (ch in _asc) {
  36 :             lenb += 1;
  37 :             if (ch ~ sep) rp = i;               #改行候補位置(sep後)
  38 :         }
  39 :         else lenb += 2;
  40 : 
  41 :         if (lenb < col) ;
  42 :         else if (lenb == col) {                 #ch:mbc/!mbc
  43 :             (si < rp && ch != sep) ? i = rp : 0;
  44 :             ar[++c] = substr(str, si, i - si + 1);
  45 :             si = i + 1; rp = lenb = 0;
  46 :         } 
  47 :         else {                                  #over ch:mbc
  48 :             if (si < rp) {
  49 :                  i = rp;
  50 :                 ar[++c] = substr(str, si, i - si + 1);
  51 :                 si = i + 1; rp = lenb = 0;
  52 :             }
  53 :             else {  #指定幅より長いセルで指定幅位置がmbc
  54 :                 ar[++c] = substr(str, si, i - si);
  55 :                 si = i; rp = 0; lenb = 2;       #over 次行繰り越し
  56 :             }
  57 :         }
  58 :     }   #while終了後 空行 or lenb<colのまま(残文有) or colピッタリ(残文無)
  59 :     (str) ? rem = substr(str, si) : ar[++c] = "";
  60 :     if (rem) ar[++c] = rem;
  61 :     return c;
  62 : }

_asc_init()

  63 : #.  _asc_init(): ASCII+半角カナ辞書(Shift_JIS) _asc["ﾙ"]
  64 : #   戻値:
  65 : function _asc_init(    i, hk, ar, qt) {
  66 :     for (i = 0; i < 128; i++) _asc[sprintf("%c", i)] = i;
  67 :     hk = "｡｢｣､･ｦｧｨｩｪｫｬｭｮｯｰｱｲｳｴｵｶｷｸｹｺｻｼｽｾｿﾀﾁﾂﾃﾄﾅﾆﾇﾈﾉﾊﾋﾌﾍﾎﾏﾐﾑﾒﾓﾔﾕﾖﾗﾘﾙﾚﾛﾜﾝﾞﾟ";
  68 :     qt = split(hk, ar, "");
  69 :     for (i = 1; i <= qt; i++) _asc[ar[i]] = 160 + i;    #Shift_JIS
  70 :     _SCLP = " ";     #マルチバイト文字の断片を表す文字
  71 : }