با نام خدا و سلام، امروز میخوام در مورد یکی از پایه ای ترین کارهایی که تو پردازش متن انجام میشه بنویسم و اونم بحث tokenize کردن یک پاراگراف یا متن به جملات و همچنین جملات به لغت با استفاده از NLTK است.
اول از همه داخل platform ارائه شده توسط NLTK روش های مختلف از tokenize کردن آورده شده که من همه ی اونها رو اینجا روشون بحث نمی کنم،
در قدم اول import ها،
دو تا import باید داشته باشیم که در زیر آوردم:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import RegexpTokenizer
پس از import کردن دو مورد بالا اول به tokenize کردن متن به جمله می پردازیم: (فرض بر این است که متن ورودی input_doc می باشد)
(sent_tokenized = sent_tokenize(input_doc
و اما برای tokenize کردن جمله به لغات، در حالت زیر فقط به استخراج کلمات پرداخته میشه و نشانه گذاری ها حذف می شوند:
(‘+regExTokenizer = RegexpTokenizer(r’\w
(word_tokenized = regExTokenizer.tokenize(sent1
برای اینکه علایم نشانه گذاری رو حذف کنیم از regular expretion استفاده کردیم.
مثال :
و خروجی مثال بالا :
ارسال پاسخ