本技能自动化解析信贷尽调客户资料压缩包,生成标准化客户画像Excel报表。
输入为一个 ZIP 压缩包(内含 PDF/XLSX/JPG 等尽调资料),
输出为按照尹伯群征信统计表格式生成的 5 Sheet Excel 报表。
使用 scripts/zip_extract.py 正确解压 GBK 编码的 ZIP 文件。
from scripts.zip_extract import extract_zip_with_gbk
extract_zip_with_gbk(zip_path, output_dir)
解压完成后列出所有文件并按类型分类。
PYTHON="C:/Users/Administrator/.workbuddy/binaries/python/versions/3.13.12/python.exe"
$PYTHON -m venv C:/Users/Administrator/.workbuddy/binaries/python/envs/default
C:/Users/Administrator/.workbuddy/binaries/python/envs/default/Scripts/pip.exe install openpyxl pdfplumber pandas
按优先级解析:
references/bank_parsing_rules.md
生成文件:姓名_公司名_尽调画像_YYYYMMDD.xlsx
严格按照尹伯群征信统计表格式,包含5个Sheet:
参考 references/verification_rules.md:
使用 open_result_view 展示Excel文件,并按格式汇报核心数据和风险提示。
当用户明确请求时,应用5条剔除规则:
| 规则 | 说明 |
|------|------|
| ①同名互转 | 同一客户名下账户互转 |
| ②法/股互转 | 法人/股东与公司对公账户互转 |
| ③当日对倒 | 同日同金额进出 |
| ④关联闭环 | 资金经多账户后回流 |
| ⑤金融借款 | 来自金融平台的借款 |
使用 scripts/filter_flow.py 实现过滤逻辑。
输出过滤后Excel(3个Sheet):剔除明细、有效流水、过滤统计。
| 问题 | 解决方案 |
|------|----------|
| ZIP文件名乱码 | 使用scripts/zip_extract.py正确解码GBK |
| 光大银行PDF文字重复 | 用itertools.groupby去重 |
| 中信银行列偏移 | debit用row[6]、credit用row[7] |
| openpyxl合并单元格报错 | 先赋值再调用merge_cells |
| 用途 | 工具 |
|------|------|
| ZIP解压 | Python zipfile + cp437/gbk解码 |
| PDF解析 | pdfplumber |
| Excel读写 | openpyxl |
| 数据处理 | pandas |
| OCR | pytesseract(需先安装Tesseract) |
共 1 个版本