Corpus là gì

     
*


2. Corpus

2.1 kháiniệm về Corpus

Corpus là 1 trong những dữ liệu tập hợp các văn bản,ngôn ngữ đã làm được số hoá. Phương pháp dịch thông thường ở cả nước là “kho ngữ liệu”. Lấy ví dụ vềcorpus như “tuyển tập những tác phẩm của nam giới Cao”, giỏi “tuyển tập ca trường đoản cú của TrịnhCông Sơn”, …

 

Cáccorpus là một trong tài nguyên đặc biệt quan trọng trong NLP. Từ các corpus, ta rất có thể rút ra nhữngdữ liệu quan trọng đặc biệt sau :

1. Từ các corpus, ta hoàn toàn có thể chiết suất 1cách auto các qui tắc ngữ pháp “văn mạch tự do”.

Bạn đang xem: Corpus là gì

2. Từ những corpus rất có thể tính toán được xácsuất, tần suất mở ra của các từ.

 

Để bảo đảm tính đúng chuẩn cho 2 kết luậntrên, corpus phải bảo vệ 1 số cơ chế nhất định :

1. Tính thay mặt : những thành phần trongcorpus phải tất cả tính phổ quát, đa dạng và phong phú.

Xem thêm: Biết Làm Sao Khi Mà Đôi Khi Hoàng Hôn Lỡ Hẹn Chân Trời Chương Mới Nhất

2. Kích thước : kích cỡ của corpus cànglớn thì càng được đánh giá cao.

 

Dựa vào mục đích, biện pháp xây dựng corpus, ngườita chia corpus thành các loại sau :

1. Corpus thô (raw corpus): dễ dàng chỉ làtập hợp các dữ liệu mà không tồn tại xử lý gì thêm.

2. Corpus được đính nhãn (tagged corpus) :các dữ liệu trong corpus đang được xử lý như đối chiếu từ, đối chiếu cú pháp, gắnnhãn tự loại, …

3. Parallel Corpus : được thực hiện nhiềutrong ứng dụng máy dịch.

 

Ngoài biện pháp chia trên, ta cũng rất có thể chiacorpus theo cấu trúc của nó.

1. Corpus biệt lập : tài liệu lấy vào 1 cáchngẫu nhiên, khác hoàn toàn và không rành mạch với nhau.

2. Corpus theo danh mục : nhờ vào các danhmục để chia dữ liệu trong corpus thành các nhóm.

Xem thêm: Tinh Dầu Hương Trầm Frankincense Là Gì Đối Với Sức Khỏe? Tinh Dầu Nhũ Hương Frankincense

3. Corpus trùng lặp : những dữ liệu trongcorpus rất có thể ở nhiều nhóm thuộc lúc.

4. Corpus theo thời hạn : những dữ liệu sắpxếp theo thời hạn thu thập và thời hạn xuất hiện.

 

2.2Thống kê trong corpus

Khái niệm về n-gram : là tần suất xuất hiệncủa n kí từ bỏ ( hoặc trường đoản cú ) tiếp tục nhau tất cả trong tài liệu của corpus.

 

Với n = 1 cùng tính trên kí tự, ta bao gồm thôngtin về tần suất lộ diện nhiều nhất của các chữ cái. Điều này ứng dụng để làmkeyboard : các phím hay xuất hiện thêm nhất sẽ ở đông đảo vị trí dễ áp dụng nhất.

 

Với n = 2, ta tất cả khái niệm bigram. Lấy ví dụ vớicác vần âm tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ là những cặp kí tự tuyệt xuất hiệnnhất. Ko kể ra, ta hoàn toàn có thể biết thêm rằng sau kí từ ‘q’ thì phần nhiều đều là kí tự‘u’.

 

Với n = 3, ta bao gồm trigram. Nhưng do n càng lớnthì số trường hợp càng lớn nên thường bạn ta chỉ áp dụng với n = 1,2 hoặc đôilúc là 3. Lấy ví dụ với các kí tự giờ đồng hồ Anh, giờ đồng hồ Anh sử dụng 26 kí tự, vậy cùng với n= 1 thì số trường hòa hợp là 26, n = 2 thì số trường hợp là 26^2 = 676 ngôi trường hợp,n = 3 gồm 17576 trường hợp.

 

Bigram được áp dụng nhiều trong câu hỏi phântích hình dáng (từ, các từ, từ bỏ loại) cho các ngôn ngữ khó phân tích như tiếngViệt, tiếng Nhật, giờ Trung, … nhờ vào tần suất mở ra cạnh nhau của những từ,người ta sẽ tính cách chia 1 câu thành những từ sao để cho tổng bigram là cao nhấtcó thể. Với thuật giải so sánh hình thái phụ thuộc trọng số nhỏ tuổi nhất, bạn tasử dụng n = 1 để khẳng định tuần suất mở ra của những từ và tính trọng số.

 

Để bảo đảm an toàn tính thống kê chính xác đòi hỏicác corpus cần lớn và gồm tính đại diện thay mặt cao.