Natural language processing là gì

     

Bài viết này là một trong những phần của loạt bài nói đến NLP: Phần 1, phần 2, phần 3. Máy vi tính rất tuyệt khi thao tác với các dữ liệu có cấu tạo như bảng tính cùng bảng cửa hàng dữ liệu. Nhưng bé người họ lại thường giao tiếp bằng tiếng nói chứ chưa hẳn trong bảng. Điều kia thật đáng tiếc cho sản phẩm tính.

Bạn đang xem: Natural language processing là gì

*
Thật không may họ không sinh sống trong phiên bạn dạng lịch sử này, nơi mà việc tiếp xúc được triển khai bằng bảng biểu, có nghĩa là dữ liệu bao gồm cấu trúc!

Rất nhiều thông tin trên trái đất không có cấu trúc - văn bạn dạng thô bằng tiếng Anh, hoặc những ngôn ngữ khác trên cầm giới. Làm ráng nào bạn có thể làm mang lại máy tính có thể hiểu được văn bản phi kết cấu và trích xuất tài liệu từ chúng?

*

Xử lý ngôn ngữ tư nhiên hay có cách gọi khác là NLP là một lĩnh vực con của AI, trong đó, nó sẽ tập trung vào việc chất nhận được máy tính phát âm và giải pháp xử lý được ngôn ngữ của con người. Hãy cùng kiểm tra xem cách NLP chuyển động và khám phá cách viết một chương trình hoàn toàn có thể trích xuất tin tức ra ngoài văn phiên bản thô bằng python!

Lưu ý: nếu khách hàng không xem xét cách thức buổi giao lưu của NLP cơ mà chỉ muốn cắt và dán một số trong những đoạn code, thì nên bỏ qua phần Coding NLP Pineline in python nhé!

Máy tính hoàn toàn có thể hiểu được ngữ điệu hay không?

Từ khi laptop tồn tại cho tới nay, thì các lập trình viên đã nỗ lực viết ra các chương trình có thể hiểu được ngữ điệu tiếng Anh. Lý do khá rõ ràng, con fan đã có lịch sử về chữ viết hàng vạn năm và sẽ thực sự có ích nếu một vật dụng tính hoàn toàn có thể đọc cùng hiểu được tất cả dữ liệu trường đoản cú lượng nội dung bài viết đã được viết trong ngần ấy năm đó.

Máy tính không thể thực thụ hiểu được tiếng Anh theo cách mà con người làm - nhưng bọn chúng đã có thể làm được tương đối nhiều trong việc hướng tới điều này! vào một số lĩnh vực hạn chế độc nhất định, phần đa gì bạn có thể làm cùng với NLP dường như sẽ đến bạn cảm xúc như sẽ có phép màu vậy . Chúng ta cũng có thể tiết kiệm không ít thời gian bằng phương pháp áp dụng những kỹ thuật NLP cho những dự án của riêng bạn.

Và thậm chí còn tốt hơn, đông đảo tiến bộ vừa mới đây trong NLP hoàn toàn có thể dễ dàng được sử dụng trải qua các tủ sách python nguồn mở như spaCy, textacy và neuralcoref. đầy đủ gì bạn có thể làm là chỉ cần code một vài mẫu mã python. Điều kia thật xuất xắc vời.

Trích xuất ý nghĩa từ văn phiên bản là khó

Quá trình đọc với hiểu giờ đồng hồ Anh rất phức tạp - và đó thậm chí là là họ còn chưa nghĩ tới câu hỏi rằng giờ đồng hồ Anh ko tuân theo các quy tắc phù hợp và tuyệt nhất quán. Ví dụ: tiêu đề của đoạn thông tin này có ý nghĩa sâu sắc là gì?

“Environmental regulators grill business owner over illegal coal fires.” Dịch: những nhà quản lý môi trường nướng những chủ công ty trên những vụ cháy than bất hợp pháp

*

Có phải các cơ quan cai quản đặt câu hỏi cho chủ doanh nghiệp về câu hỏi đốt than bất hợp pháp? tốt là những nhà thống trị đang nấu nạp năng lượng với nguyên vật liệu là những chủ doanh nghiệp lớn đúng theo nghĩa đen? Như bạn có thể thấy, phân tích tiếng Anh khôn cùng phức tạp nhất là đối với thứ tính.

Làm bất kể điều gì phức tạp trong học thứ thường có nghĩa là xây dựng một quy trình - lối đi hay nói theo cách khác đó là việc xây dựng một Pinline. Ý tưởng là chia bé dại vấn đề lớn của bạn thành các mảnh công việc nhỏ hơn và sau đó sử dụng học lắp thêm để giải quyết từng mảnh bé dại đó một bí quyết riêng biệt. Sau đó, bằng phương pháp kết đúng theo một số quy mô học máy, bạn có thể làm được mọi điều phức hợp hơn.

Đó và đúng là chiến lược mà bọn họ sẽ sử dụng cho NLP. Bọn họ sẽ chia quy trình hiểu giờ Anh thành những phần nhỏ và xem phương pháp làm của từng phần nhỏ dại đó.

Xây dựng đường ống (pineline) cho NLP, từng bước một một

Hãy cùng cả nhà xem một quãng văn bạn dạng được trích dẫn từ Wikipedia:

London is the capital and most populous đô thị of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. It was founded by the Romans, who named it Londinium.DỊch: London là tp hà nội và là thành phố đông dân độc nhất vô nhị của England cùng United Kingdom. Đứng trên dòng sông Thamse ngơi nghỉ phía đông của đảo Great Britain, London là một trong những khu định cư phệ trong hai thiên niên kỷ. Nó được ra đời bởi tín đồ La Mã, những người đã để tên đến nó là Londinium.

Đoạn văn này chứa một số trong những sự thật hữu ích. đang thật tuyệt ví như một vật dụng tính rất có thể đọc văn phiên bản này và hiểu đúng bản chất Lodon là một trong thành phố, Lodon nằm ở England, London được bạn La Mã định cư, ... . Dẫu vậy để đã đạt được điều đó, trước tiên bọn họ phải dạy dỗ cho máy vi tính những khái niệm dễ dàng và đơn giản và cơ bản nhất về ngôn từ viết và sau đó từ đó bắt đầu tiến dần lên từ bỏ đó.

Step 1: Sentence Segmentation - cách 1: phân đoạn câu văn

Bước thứ nhất trong đường ống là chia văn phiên bản thành giải pháp câu riêng biệt. Điều đó sẽ cho chúng ta kết trái sau:

“London is the capital và most populous đô thị of England and the United Kingdom.”“Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia.”“It was founded by the Romans, who named it Londinium.”

Chúng ta hoàn toàn có thể cho răng, từng câu trong giờ Anh sở hữu một ý nghĩa hoặc một phát minh đặc biệt. Và sẽ tiện lợi hơn nhằm viết một chương trình hoàn toàn có thể hiểu một câu 1-1 hơn là hiểu liền một dịp cả một đoạn văn.

Việc code quy mô phân đoạn những câu văn hoàn toàn có thể đơn giản ví dụ như việc các bạn sẽ tách các câu bất cứ bao giờ bạn thấy lốt chấm cuối câu. Nhưng các đường ống NLP văn minh thường sử dụng những kỹ thuật phức tạp hơn, hoạt động ngay cả lúc tài liệu ko được định hình sạch.

Step 2: Word Tokenization - bước 2: mã hóa các từ

Bây giờ, bọn họ đã phân tách tài liệu của chúng ta thành những câu văn riêng biệt lẻ, và vì đó, chúng ta cần phải xử lý từng câu văn một. Hãy bước đầu với câu đầu tiên trong tài liệu của chúng ta:

“London is the capital and most populous đô thị of England và the United Kingdom.”

Bước tiếp theo sau trong đường ống của bọn họ đó là phân chia câu văn này thành những từ đơn thân được điện thoại tư vấn là các words hoặc những tokens. Điều này được điện thoại tư vấn là các tokenization. Và đấy là các kết quả:

“London”, “is”, “ the”, “capital”, “and”, “most”, “populous”, “city”, “of”, “England”, “and”, “the”, “United”, “Kingdom”, “.”

Tokenization rất đơn giản làm bởi tiếng Anh: bọn họ sẽ tách bóc các từ bỏ bất cứ khi nào có khoảng cách giữa chúng. Và chúng ta sẽ coi vệt chấm câu là những Token đơn lẻ vì vệt chấm câu cũng có mang ý nghĩa.

Step 3: Predicting Parts of Speech for Each Token - cách 3: Dự đoán những phần của bài xích phát biểu cho từng token

Tiếp theo họ sẽ để mắt tới từng token (tức là từng từ bỏ của một câu văn) và cố gắng dự đoán loại từ của token này. Có thể nó là danh từ, hễ từ, hoặc tính từ, vân vân, ... . Biết được vai trò của từng từ vào câu, vấn đề đó sẽ giúp ta có thể ban đầu tìm ra được câu đang nói tới cái gì.

Chúng ta có thể làm điều này bằng cách cung cấp từng từ (và một số từ xung quanh nó, để cung cấp ngữ cảnh) vào một mô hình phân loại một phần của bài phát biểu đang được huấn luyện và đào tạo trước để triển khai dự đoán từ các loại của từ được truyền vào (việc dự đoán một từ thuộc dạng từ như thế nào được hotline là dự đoán một phần của bài bác phát biểu):

*

Mô hình part-of-speech thuở đầu được đào tạo bằng phương pháp cung cấp cho nó hàng nghìn câu tiếng Anh với từng từ của bài xích phát biểu đã có gắn thẻ cùng nó hoàn toàn có thể tái chế tạo ra lại các hành vi đó.

Hãy nhớ rằng, mô hình này hoàn toàn dựa trên số liệu thống kê lại - nó không thực sự hiểu phần đa từ này có nghĩa giống như cách con bạn làm. Nó chỉ biết làm rứa nào để đoán 1 phần (tức một từ) của bài bác phát biểu dựa trên những câu và các từ tương tự mà nó đang thấy trước đó.

Sau khi xử lý được cục bộ câu, chúng ta cũng có thể có kết quả như gắng này:

*

Với thông tin này, chúng ta có thể lượm nhặt một số chân thành và ý nghĩa rất cơ bản. Ví dụ: bạn cũng có thể thấy rằng những danh từ trong câu bao gồm "London" và "capital", vị vậy có lẽ câu này có lẽ đang nói đến London.

Step 4: Text Lemmatization - bước 4: bổ sung cập nhật cho văn bản

Trong giờ Anh (và số đông các ngữ điệu khác) thì những từ xuất hiện dưới các bề ngoài khác nhau. Nhìn vào hai câu sau:

I had a pony. I had two ponies.

Cả nhì câu đều nói về danh từ bỏ pony, nhưng bọn chúng đang sử dụng các cách viết khác nhau. Khi làm việc với văn phiên bản trong thứ tính, sẽ khá hữu ích khi biết dạng cơ bạn dạng của từng từ để bạn biết rằng cả hai câu đều nói đến cùng một khái niệm. Mặt khác hai chuỗi "pony" và "ponies" trông y hệt như hai từ khác nhau đối với máy tính.

Trong NLP, họ sẽ gọi quy trình tìm kiếm từ vựng này là quá trình tìm ra format cơ bản hoặc bổ đề của mỗi từ (word) vào một câu văn.

Điều tương tự cũng trở nên được vận dụng cho đụng từ. Bạn cũng có thể tìm các bổ ngữ (từ định hình gốc) cho động từ bằng phương pháp tìm các từ vựng gốc, tức là dạng chưa chuyển đổi (chưa được phân chia động từ) của chúng. Vày vậy, câu văn: "I had two ponies" trở thành: "I two ."

Việc ngã ngữ (Lemmatization) có nghĩa là đưa các từ về định dạng nơi bắt đầu được thực hiện bằng phương pháp sử dụng một bảng tra cứu những từ vựng gốc của những từ vào câu văn, và rất có thể có một trong những quy tắc để xử lý các từ cơ mà bạn trước đó chưa từng được thấy được trước đây.

Đây là tất cả những gì mà câu văn của công ty chúng tôi sẽ trở thành sau khi thực hiện quá trình chuyển các động từ trong câu sang trọng định dạng nơi bắt đầu của hễ từ:

*

Sự chuyển đổi duy tuyệt nhất mà cửa hàng chúng tôi thực hiện đó là việc biến "is" thành "be".

Step 5: Identifying Stop Words - xác minh các trường đoản cú dừng

Tiếp theo họ sẽ mong mỏi xem xét tầm đặc trưng của từng từ vào câu. Giờ đồng hồ Anh có tương đối nhiều từ nối cùng được áp dụng rất thường xuyên như "and", "the" với "a". Khi thực hiện việc những thống kê trên văn bản, gần như từ này sẽ đem về rất nhiều nhiễu vày chúng xuất hiện thường xuyên hơn những từ khác. Một số pineline về NLP vẫn gắn cờ bọn chúng là những từ giới hạn (stop words) - nghĩa là các từ mà bạn có thể sẽ mong mỏi lọc ra trước lúc thực hiện bất kỳ các so sánh thống kê nào.

Xem thêm: Bán Nồi Cơm Điện Cao Tần Ih Nhật Bãi Từ Liêm, Hà Nội Địa Đã Qua Sử Dụng, Giá

Ở đây, giải pháp câu của họ trông như thế nào với các từ dừng sẽ tiến hành chuyển sang màu xám:

*

Các từ dừng thường được xác định chỉ bằng phương pháp kiểm tra danh sách hardcoded của những từ dừng vẫn biết. Nhưng không có danh sách trường đoản cú vựng tiêu chuẩn phù hợp cho toàn bộ các ứng dụng. Danh sách các từ hoàn toàn có thể bỏ qua còn nhờ vào vào từng ứng dụng rõ ràng của bạn.

Ví dụ: nếu bạn đang tạo một chế độ tìm tìm ban nhạc rock, các bạn sẽ chắc chắn muốn việc loại bỏ các tự dừng sẽ không được vận dụng trên tự "the". Cũng chính vì từ "the" xuất hiện tương đối nhiều trong tên của các ban nhạc trên nạm giới, thậm chí là vào trong năm 1980, bao gồm hẳn một ban nhạc chỉ mang tên là "The" nữa đấy!

Step 6: Dependency Parsing - đối chiếu sự nhờ vào về cú pháp

Bước tiếp theo sau đó là khám phá xem làm chũm nào tất cả các từ trong câu của họ liên quan mang đến nhau. Hay nói theo cách khác là mày mò xem những từ trong câu của họ liên quan mang lại nhau như thế nào? Điều này được gọi là quá trình phân tích phụ thuộc.

Mục tiêu là kiến thiết một cây rất có thể gán một từ đơn duy nhất có tác dụng parent cho mỗi từ trong câu. Từ bỏ root của cây này vẫn là cồn từ chủ yếu trong câu. Đây là phần đầu của cây phân tích vẫn trông thế nào cho câu của bọn chúng ta:

*

Nhưng chúng ta có thể tiến thêm một cách nữa. Trong khi việc khẳng định từ parent của từng từ, bạn có thể dự đoán được loại mối liên hệ, mối tương quan tồn tai thân hai từ bỏ đó.

*

Cây so sánh cú pháp này cho bọn họ thấy chủ thể của câu là danh tự "London" với nó có có quan hệ "be" với "capital". Cuối cùng, chúng ta cũng biết một điều hữu ích đó là Lodon là thủ đô! cùng nếu họ đi theo cây phân tích hoàn chỉnh cho câu (ngoài đều gì đã được hiển thị), họ thậm chí còn hoàn toàn có thể phát hiện ra rằng London là thủ đô của United Kingdom.

Giống như cách chúng ta dự đoán những từ của bài phát biểu trước kia bằng quy mô học máy, phân tích cú pháp phụ thuộc vào vào câu hỏi đựa những từ vào vào một quy mô học máy cùng nhận được hiệu quả đầu ra. Tuy thế phân tích sự dựa vào này là nhiệm vụ đặc biệt phức tạp cùng yêu ước toàn bộ bài viết giải phù hợp một cách chi tiết. Nếu khách hàng tò mò về kiểu cách thức hoạt động của nó, thì một nơi hoàn hảo và tuyệt vời nhất để ban đầu đọc kia là bài viết của Matthew Honnibal với chủ đề: "Phân tích giờ Anh trong 500 cái code cùng với python!".

Nhưng tuy vậy có một xem xét từ tác giả vào năm năm ngoái rằng biện pháp tiếp cận này là tiêu chuẩn, cơ mà ngày nay, nó thực sự vẫn lỗi thời và thậm chí còn ko còn được thực hiện bởi chính tác giả nữa. Vào khoảng thời gian 2016, Google đã tạo ra một trình so với cú pháp phụ thuộc có tên là Parsey McParseface, nó vượt trội hơn so với các phương thức tiêu chuẩn chỉnh trước đây, bằng cách sử dụng học tập sâu bắt đầu và mau lẹ lan rộng lớn ra toàn ngành. Tiếp nối mất một năm, bọn họ đã chế tạo ra quy mô thậm chí còn tốt hơn mang tên là ParseySaurus và nó cải thiện mọi thứ giỏi hơn. Nói phương pháp khác, kỹ thuật so sánh cú pháp vẫn là một nghành được nghiên cứu và phân tích tích cực và tiếp tục được chuyển đổi và cải tiến.

Nó cũng quan trọng đặc biệt để kể lại rằng, các câu trong tiếng Anh là mơ hồ với thực sự cực nhọc phân tích. Một trong những trường hợp đó, mô hình sẽ chuyển ra dự đoán dựa bên trên phiên bạn dạng phân tích cú pháp của câu đó, và có vẻ như như nó không hoàn hảo và đôi lúc mô hình sẽ dự kiến sai. Mà lại theo thời gian, quy mô NLP của bọn họ sẽ tiếp tục trở nên giỏi hơn trong vấn đề phân tích văn bạn dạng một biện pháp hợp lý.

Bạn rất có thể sẽ mong muốn thử so với cú pháp của một câu riêng của bạn? bao gồm một bản demo tương tác tuyệt vời từ team spaCy ngơi nghỉ đây, chúng ta cũng có thể thử.

Step 6b: Finding Noun Phrases - Tìm các cụm danh từ

Cho mang lại nay, công ty chúng tôi đã coi mỗi từ trong câu của cửa hàng chúng tôi là một thực thể riêng biệt. Nhưng nhiều lúc chúng sẽ có chân thành và ý nghĩa hơn để nhóm các từ lại cùng nhau thành một cụm đại diện cho một ý tưởng phát minh hoặc một điều nhất nào đó. Bạn có thể sử dụng tin tức từ cây so với sự phụ thuộc để auto nhóm các từ mà toàn bộ đang nói tới cùng một điều.

Ví dụ: Thay bởi vì điều này:

*

Chúng ta hoàn toàn có thể nhóm các cụm danh từ để tạo ra điều này:

*

Chúng ta có làm đoạn này hay không phụ thuộc vào vào mục tiêu cuối cùng của bọn chúng ta. Mà lại nó thường là một trong cách nhanh chóng và dễ ợt để dễ dàng hóa câu nếu bọn họ không cần cụ thể thêm về hầu hết từ làm sao là tính từ bỏ và thế vào đó quan tâm nhiều hơn nữa đến câu hỏi trích xuất các ý tưởng phát minh hoàn chỉnh.

Step 7: Named Entity Recognition (NER) - nhận dạng thực thể được để tên

Bây giờ, bọn họ đã hoàn thành tất cả các các bước khó khăn đó, cuối cùng, chúng ta cũng hoàn toàn có thể vượt ra phía bên ngoài ngữ pháp của trường và ban đầu thực sự đúc kết ý tưởng.Trong câu của bọn chúng tôi, chúng tôi có những danh tự sau:

*

Một số danh trường đoản cú này trình bày những điều gồm thật trên nắm giới. Ví dụ: "London", "England" cùng "United Kingdom" đại diện cho các địa điểm thực tế trên phiên bản đồ núm giới. Nó đã là xuất sắc đẹp để có thể phát hiện ra điều đó! Với thông tin đó, cửa hàng chúng tôi có thể tự động hóa trích xuất danh sách các địa điểm trong thế giới được nói trong tài liệu bằng NLP.

Mục tiêu của dấn dạng thương hiệu của thực thể, là bài toán phát hiện cùng gán nhãn cho những danh từ bỏ này với các khái niệm trong thế giới thực mà chúng đại diện. Ở đây, câu của công ty chúng tôi trông ra sao sau khi chạy mỗi từ vựng qua mô hình NER đã có train:

*

Nhưng khối hệ thống NER không chỉ có thực hiện nay tra cứu từ điển solo giản, mà núm vào đó bọn chúng đang áp dụng bối cảnh về kiểu cách từ vựng vẫn xét xuất hiện thêm trong câu và sử dụng quy mô thống kê nhằm đoán nhiều loại danh từ nhưng mà từ vựng đó sẽ đại diện. Một hệ thống NER giỏi có thể cho thấy được sự khác biệt giữa tên fan "Brooklyn Decker" và tên địa điểm "Brooklyn" bằng việc sử dụng các ngữ cảnh đối với nơi xuất hiện thêm từ này trong câu.

Đây chỉ là một số trong những loại đối tượng người tiêu dùng mà một khối hệ thống NER điển hình rất có thể gắn thẻ:

Tên ngườiTên công tyVị trí địa lý (cả đồ dùng lý và bao gồm trị)Tên những sản phẩmNgày với thời gianSố tiềnTên sự kiện

NER tất cả hàng triệu phương pháp để sử dụng vì chưng nó dễ dàng lấy tài liệu có kết cấu ra khỏi văn bản. Nó là giữa những cách dễ nhất để hối hả nhận được giá trị xuất phát từ 1 pinline NLP.

Bạn hoàn toàn có thể sẽ hy vọng thử nghiệm một mô hình nhận dạng thực thể? bao gồm một bản demo tương tác hoàn hảo nhất khác mà bạn cũng có thể sử dụng từ bỏ spaCy tại đây.

Step 8: Coreference Resolution - giải quyết vấn đề cốt lõi

Tại thời gian này, công ty chúng tôi đã tất cả một thay mặt đại diện hữu ích của câu của chúng ta. Cửa hàng chúng tôi biết những từ, những từ liên quan đến nhau ra sao và từ nào đang nói tới thực thể như thế nào bằng quy mô NER.

Tuy nhiên, chúng tôi vẫn gồm một sự việc lớn. Giờ Anh có đầy đủ các đại trường đoản cú - đa số từ như he, she, it, ... .Đây là gần như từ viết tắt mà shop chúng tôi sử dụng thay thế sửa chữa vì yêu cầu viết đi viết lại những tên riêng rẽ của người. Con người rất có thể theo dõi đều từ này phụ thuộc bối cảnh của câu. Nhưng quy mô NLP của shop chúng tôi không biết đại từ bỏ này tức là gì vị nó chỉ bình chọn từ đó tại 1 thời điểm.

Hãy cùng nhìn vào câu thứ bố của tài liệu của chúng tôi:

“It was founded by the Romans, who named it Londinium.”

Nếu công ty chúng tôi phân tích điều đó với pineline NLP của chúng tôi, công ty chúng tôi sẽ biết rằng "it" được thành lập từ tín đồ La Mã. Mà lại sẽ bổ ích hơn cho máy tính xách tay nếu hiểu được câu này tức là Lodon được thành lập bởi bạn La Mã.

Là một fan đọc câu này, chúng ta cũng có thể dễ dàng hiểu rõ rằng "it" có nghĩa là "London". Mục tiêu của giải pháp là đưa ra ánh xạ tương tự như này bằng cách theo dõi những đại tự qua các câu. Cửa hàng chúng tôi muốn tra cứu ra tất cả các từ đang đề cập mang đến cùng một thực thể.

Xem thêm: Tantra Là Gì Trong Khi Quan Hệ Và Hướng Dẫn Chi Tiết, Tantra Là Gì

Ở đây, kết quả của câu hỏi chạy việc tìm từ những ám chỉ mang lại một thực thể của shop chúng tôi cho từ "London":

*

Với thông tin cốt lõi phối kết hợp (tức là những thông tin ánh xạ thực thể) với cây phân tích và thông tin thực thể được để tên, bọn họ sẽ có thể trích xuất không ít thông tin ra khỏi tài liệu này!

Giải quyết căn bản (tức là ánh xạ những đại tự cùng duy nhất thực thể) là giữa những bước trở ngại nhất trong quy trình của shop chúng tôi để thực hiện. Nó còn khó hơn hết phân tích cú pháp câu. Hầu hết tiến bộ vừa mới đây trong học tập sâu đã dẫn đến các cách tiếp cận mới đúng mực hơn, nhưng lại nó vẫn không hoàn hảo. Nếu khách hàng muốn bài viết liên quan về phương pháp hoạt động, hãy bước đầu ở đây.

Bài viết được dịch từ bài viết Natural Language Processing is Fun! của tác giả Adam Geitgey. Chúng ta cũng có thể nhấn vào links để xem bài viết gốc!