Parsing Pipeline

The parsing pipeline is designed for reliability and repeatability. Every import is tracked as a session and can be audited or retried.

Pipeline stages

Upload
- File stored in uploads/
- SHA-256 hash computed for deduplication
Parser selection
- ParserFactory chooses a bank-specific parser when available
- Fallback parsers handle CSV/XLSX and generic AI/OCR paths
Import session
- An import_session record is created
- Metadata stores parser, source, and status
Transaction extraction
- Parsed rows are normalized into transaction entities
- Source mapping is stored for traceability
AI categorization
- Optional AI pipeline (Gemini/OpenRouter)
- Confidence thresholds and retry logic guard quality
Deduplication
- Hash checks plus heuristics on date/amount/text
- Conflicts flagged for manual review