Layoutlmv2- Pre-trainning về văn bản và bố cục cho nhiệm vụ hiểu tài liệu tài liệu trực quan

Layoutlmv2- Pre-trainning về văn bản và bố cục cho nhiệm vụ hiểu tài liệu tài liệu trực quan

1.Giới thiệu

Document AI là một lĩnh vực nghiên cứu mới cho các kỹ thuật tự động đọc, hiểu và phân tích tài liệu kinh doanh. Các tài liệu kinh doanh như đơn đặt hàng, báo cáo tài chính, email kinh doanh, thỏa thuận mua bán, hợp đồng với nhà cung cấp, hóa đơn, biên nhận, sơ yếu lý lịch,... Định dạng của các tài liệu thường khác nhau, nhưng các thông tin thường được trình bày bằng ngôn ngữ tự nhiên và có thể được sắp xếp theo nhiều các khác nhau từ văn bản thuần túy, bố cục nhiều cột và nhiều loại bảng, biểu mẫu, số liệu. Việc hiểu tài liệu và trích rút ra các thông tin chính là một thách thức lớn, do tài liệu có các bố cục và định dạng khác nhau. Bài toán Key Information Extract là một bài toán lớn trong Document AI. Ngày nay, nhiều công ty mất rất nhiều công sức cho việc trích xuất các thông tin.

Các phương pháp trước đây cho việc trích xuất thông tin:

  • Rules-based: Phương pháp áp dụng các luật được định nghĩa từ trước lên các form, văn bản có cấu trúc cô định,không có nhiều thay đổi, sau đó sử dụng các phương pháp text/keyword matching để xác định các trường thông tin tương ứng. Sử dụng phương pháp này có nhiều hạn chế cho các định dạng bố cục là đa dạng và bị phụ thuộc vào khả năng tạo luật của người xây dựng
  • NLP-based: Nội dụng từ các textbox được đưa vào 1 mô hình text classification hoặc NER để tiến hành phân loại và xác định thực thể thuộc trường thông tin nào. Phương pháp này chỉ sử dụng thông tin về văn bản coi như dạng văn bản thuần tùy gây nên nhiều hạn chế và không đạt được hiệu quả tốt.

Các kỹ thuật kể trên chỉ sử dụng thông tin về văn bản. Tuy nhiên trong các tài liệu văn bản hình ảnh bán cấu trúc thì thông tin về bố cục là rất quan trọng. Trong bài viết này, mình sẽ giới thiệu về layoutlmv2 một mô hình đào tạo trước kết hợp các thông tin về văn bản, bố cục cũng như các đặc điểm về hình ảnh.

2. Mô hình Layoutlmv2

Layoutlmv2 là 1 pretrain of text and layout for document Image understanding là một phương pháp đào tạo trước cho nhiệm vụ hiểu hình ảnh văn bản được công bố bởi microsoft vào năm 2020. Layoutlmv2 được lấy ý tưởng từ BERT và được thiết kế dựa trên kiến trúc giải mã của Transformers. Mô hình này tích hợp thông tin về văn bản, bố cục và hình ảnh trong giai đoạn đào tạo trước, giúp hiểu được tương tác giữa các thông tin.

2.1.Kiến trúc mô hình

Kiến trúc layoutlmv2 [2]

Layoutlmv2 gồm 2 kiến trúc:

  • LayoutLmv2 BASE. Kiến trúc với kích thước ẩn d=768 sử dụng 12-layer 12 heads Transformer encoder, kết hợp với visual backbone là kiến trúc ResNexT 101-FPN. Tổng số tham số khoảng 200 triệu
  • Layoutlmv2 LARGE: Kiến trúc với kích thước ẩn d=1024 và sử dụng 24-layer Transformer với 16 heads, kết hợp với visual backbone là kiến trúc ResNexT 101-FPN. Tổng số tham số khoảng 426 triệu

Đầu vào của mô hình Layoutlmv2

Diagram

Description automatically generated
Đầu vào kiến trúc layoutlmv2 [2]


Text Token Embeddings:

Sau khi nhận diện được chữ và sắp xếp tuần tự . Sử dụng WordPice [4] để mã hóa chuỗi từ và gán cho mỗi từ một phân đoạn nhất định. WordPiece là một từ điển 30.000 từ và sử dụng ## làm dấu phân tách. Cộng thêm [CLS] là ký tự bắt đầu chuỗi, [SEP] là vị trí kết thúc của mỗi phân đoạn. Mô hình giới hạn chiều dài là 512. Ngoài ra thêm [PAD] cho việc lấp đầy các chuỗi từ ngắn hơn chiều dài giới hạn.

[2]

Với L là chiều dài giới hạn

[2]

Cộng thêm với vị trí nhúng 1-d biểu diễn vị trí của từ và phân đoạn nhúng của từ được sử dụng để phân biệt các phân đoạn

Visual Embedding

Sử dụng kiến trúc ResNext-FPN là xương sống của visual encoder. Với 1 trang hình ảnh tài liệu, được resize về 224x224 đưa qua visual backbone. Sau đó, đầu ra được tính để áp dụng cho mỗi visual token embedding. Vì CNN-based visual backbone không thể nắm bắt được thông tin vị trí, nên cộng thêm vị trí nhúng 1D. Với phân đoạn nhúng, thêm phân đoạn hình ảnh [C]

[2]

Layout Embedding: 

Mục tiêu của lớp nhúng bố cục để nhúng các biểu diễn thông tin không gian bằng các hộp bao quanh các từ trong đó tọa độ góc và hình dạng hộp được xác định rõ ràng. Chuẩn hóa tọa độ về dạng số nguyên trong khoảng từ [0:1000], sử dụng 2 lớp nhúng để nhúng đặc điểm trục x và trục y riêng biệt. Lớp nhúng bố cục kết hợp 6 đặc điểm của hộp giới hạn (x0,x1,y0,y1,w,h )để tạo nên nhúng bố cục cấp độ từ

[2]

Transformer Layer with Spatial-Aware Self attention Mechanism

Bộ mã hóa kết hợp với visual embeddings (nhúng trực quan) và text embeddings (nhúng từ) thành một trình tự thống nhất và kết hợp với thông tin khoảng gian bằng cách cộng thêm layout embedding để làm đầu vào cho lớp đầu tiên

Spatial aware self-attention mechanism

Với transformer truyền thống, tính attention

[3]

Việc tính điểm chú ý này cơ chế attention chỉ có thể nắm bắt được mối quan hệ giữa các từ đầu vào với các vị trí tuyệt đối. Để hiệu quả trong bố cục văn bản, cần thêm thông tin về trí tương đối. Thông tin vị trí tương đối 1-D và vị trí tương đối 2d được thêm vào

[2]

Sau đó, tính bản đồ điểm attention mới, áp dụng softmax để tính điểm chú ý

[2]

Đào tạo trước mô hình Layoutlmv2

Layout Lmv2 được xây dựng trên các nhiệm vụ sau 

Masked Visual Language Modeling

Che ngẫu nhiên một số từ và yêu cầu mô hình tái tạo lại từ bị che. Các phần cắt của hình ảnh cũng được bỏ trống để mô hình không được cung cấp bất kỳ manh mối hình ảnh nào. Mô hình phải sử dụng các thông tin trực quan xung quanh để giúp dự đoán từ 

Text Image Alignment

Lựa chọn ngẫu nhiên một vài từ, và các vùng hình ảnh được bao phủ trên hình ảnh văn bản. Sau đó model được yêu cầu dự đoán cho tất cả các từ liệu nó có được che phủ hay không

Text Image Matching

Từ biểu diễn đầu ra tại [CLS], dự đoán xem hình ảnh và văn bản có từ cùng một hình ảnh tài liệu hay không. Các mẫu tiêu cực được tạo ra bằng cách sử dụng một hình từ một hình ảnh tài liệu khác hoặc loại bỏ.

Khi huấn luyện layoutlmv2 3 nhiệm vụ trên được huấn luyện đồng tời cùng nhau với mục tiêu giảm hàm mất mát trên cả 2 nhiệm vụ

Tinh chỉnh mô hình Layout Lmv2

Điểm đặc biệt của Layoulmv2 mà các mô hình nhúng trước cho bài toán về bố cục hình ảnh kết quả huấn luyện có thể tinh chỉnh được. LayoutLMv2 sẽ thêm vào kiến trúc mô hình một lớp đầu ra để tùy biến theo tác vụ huấn luyện.

Visual Question Answering: 

Document Image Classification

Sequence Labeling Classification

2.2.Kết quả Layoutlmv2 đạt được

[2]
[2]

3.Finetuning Layoutlmv2

Để kiểm chứng sức mạnh của Layoutlmv2 ta tiến hành finetuning layoutlmv2 trên bộ dữ liệu hình ảnh hóa đơn tiếng việt .

Bộ dữ liệu gồm 500 ảnh, với 300 ảnh train và 100 ảnh val . Và 100 ảnh test.

Xem qua về các trường thông tin trong dữ liệu

Tiến hành đào tạo với learning_rate= 5e-5 và hàm tối ưu Adamw

Hàm loss giảm dần và F1 tăng sau 20 epoch bắt đầu ngừng tăng và đạt cực đại tại epoch 52

Một số kết quả của mô hình dự đoán

Sau khi hậu xử lý thu được kết quả :

4.Kết Luận

Trong bài trên mình đã giới thiệu về một mô hình mà mình đã sử dụng và áp dụng cho bài toán trích rút thông tin. Mô hình này đã chứng minh được hiệu quả so với các phương pháp khác mình đã thử nghiệm. Trong thời gian tới team sẽ cố gắng tìm ra các phương pháp cải thiện cho mô hình.

5.Tài Liệu Tham Khảo

1.LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding -Yang Xu , Yiheng Xu , Tengchao Lv , Lei Cui , Furu Wei , Guoxin Wang , Yijuan Lu , Dinei Florencio, Cha Zhang , Wanxiang Che , Min Zhang, Lidong Zhou

2.LayoutLM: Pre-training of Text and Layout for Document Image Understanding - Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou

3.Attention Is All You Need- Ashish Vaswani, Noam Shazeer, Niki Parmar,Jakob Uszkoreit, Llion Jones,Aidan N. Gomez, Łukasz Kaiser

4.https://huggingface.co/docs/transformers/tokenizer_summary