ウェブサイトスクレイパー&アナライザー

URLを入力するだけで、そのサイトの情報を包括的に分析・収集するCLIツール

作成日: 2025年5月19日
ウェブサイトスクレイパー&アナライザー

URLを入力するだけで、そのウェブサイトの様々な情報を一覧で取得できるCLIツールを開発したいです。

主な機能

再帰的リンク取得

  • ページのURLから同じoriginのリンクを取得し、再帰的に呼び出す
  • pathnameが同じURLは1回のみ取得する仕組み

SEO情報分析

  • ページごとのSEO関連情報を取得
    • title, description, keywords
    • OGP情報(og:title, og:description, og:image)
    • Twitter Card情報
    • 見出し構造(h1~h6)の分析
    • 画像のalt属性チェック

ビジュアル分析

  • ページのスクリーンショットを撮影
    • PC版対応(将来的にはスマホ版も)
    • ページ全体のキャプチャ
    • 重要な部分のハイライト

データ出力

  • sitemap.xmlの自動生成
  • SEO分析レポートの出力
  • リンク構造の可視化

技術的な実装

CLIアプリケーション

  • コマンドラインで動作
  • Node.js環境の活用
  • Puppeteerを使用したヘッドレスブラウジング
  • JSONやCSVなど様々な形式での出力

利用シーン

  • ウェブサイトの競合分析
  • SEO監査
  • リンク切れチェック
  • コンテンツインベントリの作成
  • サイトマップの自動生成

セキュリティへの配慮

  • robots.txtの遵守
  • 自サイトの分析用途を推奨
  • 著作権表示の保持
  • プライバシー情報の除外

アーキテクチャ

モノレポ構成

  • CLIパッケージ
  • アカウント管理サイト(API付き)
  • 共通ライブラリ

AI機能(有料)

  • 自動コンテンツ分析
  • SEO最適化提案
  • 競合分析レポート
  • CLIログイン時のみ利用可能

今後の拡張計画

  • パフォーマンス測定機能
  • アクセシビリティチェック
  • 複数サイトの比較分析