HtmlToText
出典: やる気向上作戦
これは何ですか?
HTMLからテキストのみを抽出するコマンドラインツールです。
- MSHTMLを使用しています。ゆえにIEが必要です。
- MSHTMLが勝手に文字コード変換をしてくれちゃったりするので、手間要らずです。誤変換は勘弁。
- MSHTMLのおかげで、Webページを直接読み込めます・・・MSHTML頼みかよ。
- ページのレイアウトは全く保存されません。
- Webページを形態素解析したりする用途でしか、役に立ちません。
- xdoc2txt の方が多機能でお勧めです。
- つまんないので、スクリプトを使えるようにしてみました。それなりに使えるか?
