ウェブサイトスクレイパー&アナライザー
URLを入力するだけで、そのサイトの情報を包括的に分析・収集するCLIツール
作成日: 2025年5月19日

URLを入力するだけで、そのウェブサイトの様々な情報を一覧で取得できるCLIツールを開発したいです。
主な機能
再帰的リンク取得
- ページのURLから同じoriginのリンクを取得し、再帰的に呼び出す
- pathnameが同じURLは1回のみ取得する仕組み
SEO情報分析
- ページごとのSEO関連情報を取得
- title, description, keywords
- OGP情報(og:title, og:description, og:image)
- Twitter Card情報
- 見出し構造(h1~h6)の分析
- 画像のalt属性チェック
ビジュアル分析
- ページのスクリーンショットを撮影
- PC版対応(将来的にはスマホ版も)
- ページ全体のキャプチャ
- 重要な部分のハイライト
データ出力
- sitemap.xmlの自動生成
- SEO分析レポートの出力
- リンク構造の可視化
技術的な実装
CLIアプリケーション
- コマンドラインで動作
- Node.js環境の活用
- Puppeteerを使用したヘッドレスブラウジング
- JSONやCSVなど様々な形式での出力
利用シーン
- ウェブサイトの競合分析
- SEO監査
- リンク切れチェック
- コンテンツインベントリの作成
- サイトマップの自動生成
セキュリティへの配慮
- robots.txtの遵守
- 自サイトの分析用途を推奨
- 著作権表示の保持
- プライバシー情報の除外
アーキテクチャ
モノレポ構成
- CLIパッケージ
- アカウント管理サイト(API付き)
- 共通ライブラリ
AI機能(有料)
- 自動コンテンツ分析
- SEO最適化提案
- 競合分析レポート
- CLIログイン時のみ利用可能
今後の拡張計画
- パフォーマンス測定機能
- アクセシビリティチェック
- 複数サイトの比較分析