تجزیه پاراگراف به جمله و جمله به لغت (Tokenize) در پایتون با استفاده از NLTK

با نام خدا و سلام، امروز میخوام در مورد یکی از پایه ای ترین کارهایی که تو پردازش متن انجام میشه بنویسم و اونم بحث tokenize کردن یک پاراگراف یا متن به جملات و همچنین جملات به لغت با استفاده از NLTK  است.

اول از همه داخل platform ارائه شده توسط NLTK روش های مختلف از tokenize کردن آورده شده که من همه ی اونها رو اینجا روشون بحث نمی کنم،

در قدم اول import ها،

دو تا import باید داشته باشیم که در زیر آوردم:

from nltk.tokenize import sent_tokenize
from nltk.tokenize import RegexpTokenizer

پس از import کردن دو مورد بالا اول به tokenize کردن متن به جمله می پردازیم: (فرض بر این است که متن ورودی input_doc می باشد) 

 (sent_tokenized = sent_tokenize(input_doc

و اما برای tokenize کردن جمله به لغات، در حالت زیر فقط به استخراج کلمات پرداخته میشه و نشانه گذاری ها حذف می شوند:

(‘+regExTokenizer = RegexpTokenizer(r’\w

(word_tokenized = regExTokenizer.tokenize(sent1

برای اینکه علایم نشانه گذاری رو حذف کنیم از regular expretion استفاده کردیم.

 

مثال : 

python-tokenizer

و خروجی مثال بالا :