آیا تا به حال به این موضوع اندیشیدهاید که موتورهای جستجوی نظیر گوگل و بینگ، چگونه معانی و مفاهیم موجود در حجم عظیمی از اطلاعات سطح وب را درک میکنند و به راحتی قادر هستند اطلاعات مرتبط با پرس و جوی کاربران را بازیابی کنند؟ پاسخ به این سؤال، متن کاوی است.
متن کاوی، این توانایی را برای سیستمهای کامپیوتری ایجاد میکند تا بتوانند اطلاعات معنادار را از دادههای متنی غیر ساختیافته استخراج کنند.
در حال حاضر برآورد شده است که چیزی حدود 2.5 کوینتیلیون بایت داده، روزانه در جهان تولید میشود. دادههای متنی غیر ساختیافته، بزرگترین منبع دادههای تولید شده به وسیله انسان محسوب میشوند.
**مقدمهای بر متن کاوی:**
متنکاوی، که به آن تحلیل متن نیز گفته میشود، فرایند تبدیل دادههای متنی غیر ساختیافته به اطلاعات با معنا و عملی است. متن کاوی، از طریق شناسایی موضوعات، الگوها و کلمات کلیدی مرتبط به کاربران اجازه میدهد بدون نیاز به بررسی دستی حجم عظیمی از اطلاعات، دانش و اطلاعات مفیدی از دادههای متنی غیر ساخت یافته به دست آورند.
**روشهای ساده متن کاوی:**
**روشهای مبتنی بر تناوب کلمات (Word Frequency):**
از روشهای مبتنی بر تناوب کلمه برای شناسایی متناوبترین لغات یا مفاهیم موجود در مجموعهای از دادههای متنی استفاده میشود.
**روشهای مبتنی بر باهمگذاری یا هماتفاقی کلمات (Word Collocation):**
اصطلاح باهمگذاری یا هماتفاقی کلمات، به دنبالهای از کلمات یا مفاهیم اطلاق میشود که معمولا در یک داده متنی در کنار همدیگر ظاهر میشوند.
**روشهای مبتنی بر راهنمای لغات (Concordance):**
اصطلاح راهنمای لغات، به لیستی از لغات یا مفاهیم موجود در یک سند به همراه مشخصه محل ظاهر شدن آنها اطلاق میشود.