Atsumaru Engineer's Blog

集客プラットフォーム事業を手がける株式会社あつまるのエンジニアブログです

【Scrapy】クロール実行時 win32api の ImportError でコケる (Windows10, Python 3.5.2, Scrapy 1.5.0)

Scrapy でバグっぽい挙動にぶつかったので状況と解決策の記録です。 クローラーの実行に失敗する いつものように Scrapy でクローラーを走らせようとしたらエラーでコケました。 エラーのログはこんな感じ。 2018-01-27 14:36:06 [scrapy.utils.log] INFO: S…

【Scrapy+AWS】LambdaでWeb定点観測のイレギュラーに立ち向かう

Web スクレイピングはイレギュラーとの戦いです。特にそれが Web 定点観測のためのスクレイピングであれば難易度はさらに高まります。 スクレイピングしようとしたタイミングでサーバーが死んでいるかもしれない クローラーを書いていたときには気づけなかっ…

【Python】Python3 で言語処理100本ノック 2015 - 第3章

乾・岡崎研究室が公開している 言語処理100本ノック 2015 に取り組んで行きます。 使用する言語は Python3 です。 第3章です。一部の方が大好きな 正規表現 の章です。 私は...、あんまり好きじゃないですね。 第3章: 正規表現 Wikipediaの記事を以下のフォ…

【Python】Python3 で言語処理100本ノック 2015 - 第2章

どうも、株式会社あつまるで Python 製の社内ツールなどを作っている三井です。 まさか続くとは。 乾・岡崎研究室が公開している 言語処理100本ノック 2015 に取り組んで行きます。 使用する言語は Python3 です。 第2章まで出来たんでまとめます。 第2章: U…

【OCR】毎月数時間を要していたスキャンデータ整理をOCRで自動化した

どうも、株式会社あつまるで財務経理部を全力サポートしている三井です。 企業活動をするなかで見積書や請求書といった書類を発送するシーンは多いですよね。 私が勤める会社でもそういった書類をクライアントに郵送していますが、郵送する前の書類をスキャ…