with pdfplumber.open("输入.pdf") as pdf: # 遍历PDF的每一页 for page in pdf.pages: # 提取当前页的文本 text = page.extract_text() # 根据换行符分割文本以处理每一行 lines = text.split('\n') for line in lines: # 使用正则表达式找到每行的匹配项 match = pattern.search(line) if match: # 如果有第二个分组(英文单词),则保留这个单词 if match.group(2): item = match.group(1).strip() + ', ' + match.group(2).strip() else: item = match.group(1).strip() index_items.append(item)