医療文書のOCRパイプライン

researchoku/medical-ocr-pipeline

📅 公開日: 2026年1月15日 📄 32,768 コンテキスト
¥500/月〜

医療ガイドライン等のあらゆる文書構造に対応した高度なOCRパイプライン。医療現場で使用される複雑な表形式、階層構造、混合コンテンツを高精度で認識し、構造化データとして出力します。フラット構造、階層構造、フローチャート、プレーンテキストなど、多様な文書形式に対応しています。

概要

🎯 対応する文書構造

  • ✅ 通常の表(フラット構造)
  • ✅ 階層構造を持つ表(親カテゴリと子項目)
  • ✅ プレーンテキスト(段落、箇条書き)
  • ✅ フローチャート
  • ✅ 混合コンテンツ(表+テキストなど)

⚡ 主な特徴

  • 高精度のOCR認識エンジン
  • 医療用語に特化した辞書
  • 複雑な表構造の自動解析
  • JSON/CSV形式での出力
  • バッチ処理対応

機能

📊 表構造認識

複雑な医療文書の表構造を自動的に認識し、セルの結合や階層構造を正確に解析します。

🔍 高精度文字認識

医療用語や専門的な略語を含む文字を高精度で認識します。日本語、英語の混在文書にも対応。

🏥 医療特化辞書

医療ガイドライン、診療記録、検査結果など、医療現場で使用される専門用語を網羅した辞書を搭載。

⚙️ カスタマイズ可能

認識精度の閾値、出力形式、前処理パラメータなど、用途に応じて柔軟にカスタマイズ可能です。

技術仕様

項目 詳細
対応画像形式 PNG, JPEG, PDF, TIFF
最大画像サイズ 20MB
処理速度 1ページあたり約5秒
対応言語 日本語、英語
出力形式 JSON, CSV, Excel
API レート制限 100リクエスト/分

料金プラン

ベーシック

¥500/月
  • 月間100ページまで
  • 基本的なOCR機能
  • JSON出力
  • メールサポート

エンタープライズ

お問い合わせ
  • 無制限ページ数
  • カスタムモデル対応
  • 専用サーバー
  • 24/7サポート
  • SLA保証

クイックスタート

1. APIキーの取得

リサチョクのダッシュボードからAPIキーを取得してください。

export RESEARCHOKU_API_KEY="your-api-key-here"

2. Pythonでの使用例

import requests

url = "https://api.researchoku.com/v1/ocr"
headers = {
    "Authorization": f"Bearer {RESEARCHOKU_API_KEY}",
    "Content-Type": "application/json"
}
data = {
    "image_url": "https://example.com/medical-doc.pdf",
    "output_format": "json"
}

response = requests.post(url, headers=headers, json=data)
result = response.json()
print(result)

3. レスポンス例

{
  "status": "success",
  "pages": 1,
  "data": {
    "tables": [
      {
        "type": "structured",
        "rows": 10,
        "columns": 5,
        "content": [...]
      }
    ],
    "text_blocks": [...]
  }
}