AWS DynamoDBでBackupスケジュールを設定する

癖のあるDynamoDBですが、使いやすい一面もあります。

Backupスケジュールが手軽に設定できます。

テーブルの管理画面から、バックアップのタブを選びます。

「バックアップ作成」→「バックアップのスケジュールを設定」からバックアップのプラン選択句に移ります。

細かい操作は割愛しますが、週一回のバックアップが仕込めました。

バックアップ状況が一覧でみれます。なんか二重にバックアップファイルができますが、これはよくわかりません。

RDBのバックアッブコマンドを、ジョブスケジューラに登録したりしなくてよいです。ストレージも勝手に割り当ててくれるようです。

e-eovで返戻し文書を修正するには

社会保険の申請ができるe-eovですが、カナの姓名間にスペースが半角などなど、申請時に判別てきそうな誤りを、申請後に指摘されてしまい、いつも何回か再申請を繰り返しがちです。おまけに、e-taxとは異なり、入力内容は自動保存されません。再申請の度、全入力していました。

どうしたものかと思案していましたが、再申請は以下のようにするようです。

1) メイン画面のスクロールして見えない部分に、「作成済み申請書の読込」を選択します。なぜこんな重要なものを一番下に置いているのか不思議すぎです。

2) 申請時にダウンロードして保存しておいたzipを読込ます。

これで前回の申請内容を修正して提出ができます。

しかし申請時に、申請内容のzipをダウンロードしていないと出来ません。

このダウンロードを行うよう画面に表示はされていますが、重要なもので「保存しますか?保存しないと再申請できません…」と問合せメッセージを出してほしいです。落とし穴です。

GIMPとInkscapeで電子印を作る

大手さんでなくとも、「請求書はpdfで」となってきました。印刷してスキャンしてpdfにするのも面倒ですし、第一美しくない。見積や請求書に押す「角印」は自分で作ってもいいようです。画像編集フリーソフト「GIMP」とデザインフリーソフト「Inkscape」で、電子角印を作成します。先刻、協業事業者さんのを作成したので、手順を改めてせいりしました。

GIMPでの操作

「GIMP」では、ハンコが下の文書と透けるよう背景透明化と、背景と赤部の二色にするための編集を行います。赤部が完璧でなくともややおおざっぱでOKです。

1) ハンコを紙に押して、スキャナでスキャンします。300dpi以上がよいでしょう。

2) スキャンすると大体.jpgになります。jpgは、背景を透明にできず、圧縮率によっては色の変わり目の色を補完してしまいます。「GIMP」で開いて、まず「ファイル」メニューの「名前を付けてエクスポート」から、拡張子を手打ちで.pngに変更して、エクスポートします。

3) 変換した.pngを「GIMP」で開きます。ハンコが斜めっていたら、ツールボックスの「回転」でまっすぐにします。

4) ハンコの赤部分の背景を透明にします。ツールボックスの「ファジー選択」を選んで、背景を選択し、編集メニュー「切り取り」を選びます。これは背景のゴミを除去する目的もあります。はじめは「ファジー選択」のオプションボックスの「しきい値」を、50くらいとし、おおざっぱに切り取りしていきます。

5) 細かい背景部は、「しきい値」を10くらいで、「切り取り」していきます。

6) 次ぎに画像全体を、減色していきます。「色」メニューの「ポスタリゼーション」を選びます。「ポスタリゼーションのレベル」が、画像の色数を示します。赤部がキレイに残るギリギリまで、少なくします。

7) 「ファジー選択」で赤部を選択します。赤部が選択範囲に収まるように、「しきい値」を調整します。赤部が分離している部分は、「Shift」キーを押したまま、赤部をマウス選択していきます。

8) 赤部が選択できたら、ツールボックスの「塗りつぶし」で、赤色に塗りつぶします。これで背景透明かと、二色化ができました。

9) 「ファイル」メニューの「上書きエクスポート」で、.pngを保存します。

Inkscapeでの操作

「Inkscape」では、画像の図形化と、ハンコ境界線の微調整を行います。

1)「Inkscape」を起動し、「ファイル」メニューの「開く」から.pngを開きます。オプションダイアログが表示るので「平滑化」のチェックは外しておくのが良いでしょう。

2) ハンコ画像部を選んで、「パス」メニューから「ビットマップのトレース」を選びます。OKを押すと、画像が図形化されます。境界線が自動的になめらかになります。なめらかすぎる場合は、Ctrl+Zで戻して、「Speckles」を変更してOKを押し、いい感じなるまで繰り返します。

3) 図形化ができたら、その下位レイヤーにある元画像は不要なので削除します。

4) ハンコ部を赤で塗りつぶします。

5) ツールボックス「ノードツール」を選びます。これでハンコ境界線を調整します。ここから先は、ハンコっぽいくなるように境界位置をマウスで調整していきます。具体的な調整事項は、漢字の真ん中の空間がまん丸、カナのはらい部がとがりすぎ、点の丸部が丸み、外円と内円が真円になっていないなどです。

6) Word/Execl用を生成するには、「ファイル」メニューの「PNGにエクスポート」で.pngを生成します。Word、Execlの貼付け用となります。GIMPで開いてクリップボードにコピーし、Word/Execlに貼付けます。テストして、背景が透明になっているか確認します。サイズを20x20mmに調整して保存しておくと毎回サイズ調整不要となりGoodです。

7) PDF用を生成するには、「ファイル」メニューの「名前を付けて保存」からPDFを選びます。できたPDFは、Acrobat readerの「ツール」タブの「スタンプ」を選び、スタンプバーの「カスタムスタンプ」から、はんこpdfを選び、スタンプ名を付けて登録します。あとは「スタンプ」から命名したスタンプを呼出します。最大サイズでスタンプが挿入されるので、「ものさし」ツールなどで、20x20mmに調整します。

8) 今後のメンテ用に、svg形式でも保存しておきます。

AWS DynmoDB 件数取得で時間要す

ちょっとマニアックで癖のあるAWS DynmoDB。

テーブルアクセス時には、まず件数を知りたいとこです。SQL文なら以下のような感じ。

SELECT count(*) from テーブル名

DynmoDBで、pythonなら以下のような感じです。

tbl1 = dynamodb.Table("テーブル名") 
resp = tbl1.scan(   Select="COUNT", 
                    ReturnConsumedCapacity='TOTAL' )
count   = resp['Count']   

簡単できたと思いましたが落とし穴が、、、

まず感覚的に、他RBMSのSELECT count(*) に比べなんか重い。2万件程度、テーブルにデータを追加してみたところ、エラーが発生しました。

原因は、読出し一回1MB制限でNGでした。count値だけなら1MBに達しないと解釈していましたが、内部的にデータも取り出してくるようです。query でもscanでも同じ。

件数取得したいだけなのに、以下のようにloopにしないといけません。ザックリ1万件づつ読出し。

isLoop = True
totalCount = 0
lastKey=""

while( isLoop == True ):
    if ( lastKey == "" ):  # First scan
        resp = tbl1.scan(   Select="COUNT", 
                            ReturnConsumedCapacity='TOTAL',
                            Limit=10000 )
    else                   # Second or later scan
        resp = tbl1.scan(   Select="COUNT", 
                            ExclusiveStartKey=lastKey,
                            ReturnConsumedCapacity='TOTAL',
                            Limit=10000 )
    count   = resp['Count']   
    totalCount += count 
    #ラストキーがあれば、続きあり 
    if 'LastEvaluatedKey' in resp :  
        lastKey = resp['LastEvaluatedKey']
    else:                       # 続きなし 
        isLoop = False          # loop終了
 

おまけにLambdaのタイムアウトやメモリの動作設定の不足でよく止まってしまいます。弊方の構築したWEBサイトで最も重い処理になってしまいました。

スマートに件数取得を行うには、管理用のテーブルを用意して、カウント対象のテーブルの件数を記録しておくしかなさそうです。

AWS DynmoDB ScanIndexForward読出しで0件!?

ちょっとマニアックで癖のあるAWS DynmoDB。

時系列のログなどは、降順で読み出したいところです。pythonでは以下のようなコードになるかと思います。ScanIndexForwardを指定します。

tbl1 = dynamodb.Table("テーブル名")
   :
   :
resp = tbl1.query(
          KeyConditionExpression=Key('キー名').eq('キー値'),
          ScanIndexForward=False
       )

しかし実際には、query一回の読出し量1MBの制約があります。1MBオーバのエラー検出をして、再読み込みさせるコードを書くなら、以下のように予め一定件数づつ読出しした方が効率的です。

resp = tbl1.query(
          KeyConditionExpression=Key('キー名').eq('キー値'),
          ScanIndexForward=False,
          Limit=1000
       )

当方では、以下のようにプライマリキーは、時刻を入れていました。

登録時刻(プライマリキー)データ1データ2データ3

こうすると、一番新しい時刻から、1000件が降順で読み出されると考えてしまいます。

しかし実際には、読出し件数は、0となってしまいました!!

どうも「一番古いデータから、降順で1,000件」というリクエストと解釈されるようです。

当方では、以下のように対処しました。

resp = tb1.query(
          KeyConditionExpression=Key('キー名').eq('キー値') & Key('時刻').lt('最新時刻'),
                   Limit=1000,
                   ScanIndexForward=False 
           )

‘最新時刻’は、弊方はデータに登録されている現在を用いましたが、現在時刻でもいけるのか未確認です。記録時刻の最大を求めたい場合は、 他RDBでSQL文ですとMAX関数で一発でもとまりますが、Dynamodbでは全件なめにいきそうな気配です。また1MB問題にひっかかりそうですね。