✓ 🍋

OCR

OCR（光学字符识别）

一种分析印刷或手写文本图像并将其转换为机器可读、可搜索和可编辑文本的技术。OCR对于使扫描文档可搜索和无障碍访问至关重要。

技术细节

现代OCR流水线包括图像预处理（纠偏、二值化、去噪）、版面分析（检测文本区域、列、表格）、使用CNN或Transformer模型（Tesseract 5使用LSTM）的字符识别、后处理（拼写检查、语言模型校正）。Tesseract支持100多种语言，云服务（Google Vision、AWS Textract）针对手写和复杂布局添加了文档AI功能。

示例

```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';

const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```

Categories

OCR

技术细节

示例

相关工具

相关术语