Word 文書からきれいな HTML とはてな記法で出力する - はじめに

社内向けページに情報を載せるときに、すでに Word で作成されている文書を HTML に変換することがしばしば。
すでにあるページのスタイルに合わせつつ HTML を生成するのはなかなか手間がかかる。Word の HTML 生成は非常に汚いソースになるしその後の整形が必要、かといって自前ではじめから HTML を作ると人によってフォーマットが変わる余地があったりとあまり美しくない。
そこで VSTO の勉強がてら、Word の文書をきれいな HTML に変換するアプリを作ってみる。

  • 組み込みスタイルの「見出し1」だと、<h1> で、見出し2なら <h2> のようにスタイルでの指定を原則とする(色指定その他も)
  • 貼り付けられている画像は適切なサイズにリサイズして HTML と併せて出力する
  • 表もそれなりに処理する
  • 半角全角の統一処理などを行う(参考:Windows Azureクラウド・サービス+.NETクライアントの例 − @IT)
  • ついでにはてな記法でも出力できるようにする
  • 図形や SmartArt その他はとりあえず無視

さて、いつ頃できるかな…