🍋
Menu
PDF

OCR

OCR(光学字符识别)

一种分析印刷或手写文本图像并将其转换为机器可读、可搜索和可编辑文本的技术。OCR对于使扫描文档可搜索和无障碍访问至关重要。

技术细节

现代OCR流水线包括图像预处理(纠偏、二值化、去噪)、版面分析(检测文本区域、列、表格)、使用CNN或Transformer模型(Tesseract 5使用LSTM)的字符识别、后处理(拼写检查、语言模型校正)。Tesseract支持100多种语言,云服务(Google Vision、AWS Textract)针对手写和复杂布局添加了文档AI功能。

示例

```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';

const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```

相关工具

相关术语