| نویسنده |
پیغام |
احسان  آخر آدم بيکار!
تاريخ عضويت: دوشنبه 19 خرداد 1382 مجموع ارسالها: 4967 اعتبار کسب شده: 9596 محل سکونت: شيراز سن: 26 جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 20:48 |
|
 |
1 سال و 2 ماه پيش |
|
#1
|
| |
بعضي کلمات در هنگام دسته بندي متون، ارزشي ندارند. از اين نمونه کلمات ميتوان به "از"، "به"، "دارم"، "سپس"، "مثلا" و ... اشاره کرد.
توضيح اينکه هدف يافتن موضوعات مشابه با موضوع ارسالي است. به اين معنا که هنگام ارسال يک نوشته، اگر آن نوشته با نوشته (يا نوشته هاي) ديگري در تالار "خيلي مشابه" و احتمالا تکراري باشد، آنرا کشف کنيم. ساده ترين راه براي اينکار شمارش تعداد کلمات مشترک بين نوشته ارسالي با هر ارسال ديگر است. مشکل اينجاست که کثرت کلمات پربسامد باعث تصميم گيري نادرست ميشود. هدف اينست که بتوانيم اينگونه کلمات را تشخيص داده و از ايندکس شدن آنها جلوگيري کنيم.
ساده ترين راه استفاده از يک پايگاه داده کلمات پربسامد ميباشد... آيا ياري کننده اي است؟ |
|
_________________ » تنهايي خيلي خوب است... ... ... اما دونفرهاش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
|
|
|
|
|
 |
کلاغ سفيد  پرچونه!!
تاريخ عضويت: شنبه 20 آبان 1385 مجموع ارسالها: 621 اعتبار کسب شده: 852 محل سکونت: آخر قصه... سن: 23 جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 21:17 |
|
 |
1 سال و 2 ماه پيش |
|
#2
|
| |
دقيق تر بگو بايد چه کار کنيم تا ببينيم ميتونيم کمکت کنيم؟!
اما اين تاپيکهاي مرتبط به نظر خيلي بي ربط ميان... |
|
_________________ باور کردني نيست....
|
|
|
|
|
 |
احسان  آخر آدم بيکار!
تاريخ عضويت: دوشنبه 19 خرداد 1382 مجموع ارسالها: 4967 اعتبار کسب شده: 9596 محل سکونت: شيراز سن: 26 جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 21:42 |
|
 |
1 سال و 2 ماه پيش |
|
#3
|
| |
| کلاغ سفيد نوشته بود: |
دقيق تر بگو بايد چه کار کنيم تا ببينيم ميتونيم کمکت کنيم؟!
اما اين تاپيکهاي مرتبط به نظر خيلي بي ربط ميان... |
دليلش همين هست ديگه! موضوعات مرتبط بايد بر اساس کلمات کليديشون مشخص بشن، مثلا "رفسنجاني"، اما متسافانه انبوه کلمات بيربط مثل "شنيدم"، "گفتم"، "از"، "با" و ... الگوريتم رو خراب ميکنند. بايد يه جوري اين کلمات رو فيلتر کرد. تا جايي که ميدونم به اين کلمات کلمات پربسامد گفته ميشه و من دنبال ليستي از اين کلمات هستم. البته يک راه حل نه چندان خوب دارم و اون اينه که کلماتي که تا به حال توي تالارهاي گفتمان مثلا بيش از 1000 بار تکرار شدن رو کلمات پر بسامد بگيريم، اما اين کار خيلي درست نيست. |
|
_________________ » تنهايي خيلي خوب است... ... ... اما دونفرهاش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
|
|
|
|
|
 |
mhaji  آخر آدم بيکار!
تاريخ عضويت: دوشنبه 19 خرداد 1382 مجموع ارسالها: 3387 اعتبار کسب شده: 3504 محل سکونت: Montreal جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 21:46 |
|
 |
1 سال و 2 ماه پيش |
|
#4
|
| |
| احسان نوشته بود: |
بعضي کلمات در هنگام دسته بندي متون، ارزشي ندارند. از اين نمونه کلمات ميتوان به "از"، "به"، "دارم"، "سپس"، "مثلا" و ... اشاره کرد.
توضيح اينکه هدف يافتن موضوعات مشابه با موضوع ارسالي است. به اين معنا که هنگام ارسال يک نوشته، اگر آن نوشته با نوشته (يا نوشته هاي) ديگري در تالار "خيلي مشابه" و احتمالا تکراري باشد، آنرا کشف کنيم. ساده ترين راه براي اينکار شمارش تعداد کلمات مشترک بين نوشته ارسالي با هر ارسال ديگر است. مشکل اينجاست که کثرت کلمات پربسامد باعث تصميم گيري نادرست ميشود. هدف اينست که بتوانيم اينگونه کلمات را تشخيص داده و از ايندکس شدن آنها جلوگيري کنيم.
ساده ترين راه استفاده از يک پايگاه داده کلمات پربسامد ميباشد... آيا ياري کننده اي است؟ |
من unigram (و حتي bigram) کلمات فارسي رو دارم.
ولي همونطور که آقاي يوسفان در پايان نامه اش نوشته با استفاده از فرکانس کلمات به تنهايي نميتونيم stop word ها را با دقت خيلي بالا جدا کنيم. حتي اگه اندازه مجموعه نوشته جات خيلي زياد باشه. ولي به نظر من به هر حال براي شروع خوبه.
براي اثبات حرف يوسفان، اولين 100 کلمه پر فرکانس فارسي رو از unigram خودم - که از چيزي در حدود 7,300,000 کلمه استخراج شده - ليست ميکنم:
و
مي
به
در
كه
از
را
اين
است
با
آن
هاي
ها
ي
هم
سروش
براي
يك
بود
اي
تا
شود
من
او
كند
فيلم
شده
يا
ما
شد
كار
برنامه
كرد
نمي
خود
هر
همه
اما
باشد
دارد
تاريخ
بر
چه
سال
ديگر
شركت
كرده
اند
كنند
گفت
سريال
تر
بايد
دست
دو
اگر
بعد
شبكه
تمام
روي
بي
نامه
بازي
س
شما
استفاده
انتشارات
نيست
كنم
هايي
نيز
فقط
يكي
جستجو
چون
پخش
خيلي
همين
بيش
نه
جوان
تو
پيش
مورد
زندگي
پس
ولي
حال
هيچ
قرار
نظر
هفته
وجود
روز
وقتي
خانه
مردم
كنيد
فكر
چند
همونطور که ميبيني به استثناي چند کلمه مثل سروش، فيلم، سريال، شبکه بقيه واقعا stop word هستند. |
|
|
|
|
|
|
 |
احسان  آخر آدم بيکار!
تاريخ عضويت: دوشنبه 19 خرداد 1382 مجموع ارسالها: 4967 اعتبار کسب شده: 9596 محل سکونت: شيراز سن: 26 جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 21:58 |
|
 |
1 سال و 2 ماه پيش |
|
#5
|
| |
اين ديتابيس رو چه جوري ميشه به دست آورد؟
___
من براي کاهش حجم ايندکسم، کلمات کمتر از چهار حرف رو اصلا به حساب نميارم. نتيجتاً فقط کلمات چهار حرفي و بلندتر رو ميخوام.
با تشکر |
|
_________________ » تنهايي خيلي خوب است... ... ... اما دونفرهاش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
|
|
|
|
|
 |
mhaji  آخر آدم بيکار!
تاريخ عضويت: دوشنبه 19 خرداد 1382 مجموع ارسالها: 3387 اعتبار کسب شده: 3504 محل سکونت: Montreal جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 22:20 |
|
 |
1 سال و 2 ماه پيش |
|
#6
|
| |
| احسان نوشته بود: |
اين ديتابيس رو چه جوري ميشه به دست آورد؟
|
اگه فقط ليست کلمات رو لازم داري، يه فايل متنيه که در وب سايت گذاشته بودمش: 41 هزار کلمه فارسي به ترتيب فرکانس
ولي اگه احتمال کلمات - در واقع مدل unigram - رو هم لازم داري، امر کن تا بفرستمش.
| احسان نوشته بود: |
من براي کاهش حجم ايندکسم، کلمات کمتر از چهار حرف رو اصلا به حساب نميارم. نتيجتاً فقط کلمات چهار حرفي و بلندتر رو ميخوام.
|
با اين حساب کلمات متمايز کننده اي مثل ربا، مرگ، نفت، زخم، خشم، باغ، نور، موج و ... رو هم حذف ميکني؟! |
|
|
|
|
|
|
 |
احسان  آخر آدم بيکار!
تاريخ عضويت: دوشنبه 19 خرداد 1382 مجموع ارسالها: 4967 اعتبار کسب شده: 9596 محل سکونت: شيراز سن: 26 جنسيت: مرد |
 |
شنبه 15 ارديبهشت 1386، ساعت 22:24 |
|
 |
1 سال و 2 ماه پيش |
|
#7
|
| |
ممنون.
فعلا که اينطوره! بايد ببينم نتيجه کار چي ميشه، اگه کيفيت خيلي پائين بياد، مجبورم يه فکري به حالشون بکنم. |
|
_________________ » تنهايي خيلي خوب است... ... ... اما دونفرهاش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
|
|
|
|
|
 |
سالم پرچونه!!
مجموع ارسالها: 594 اعتبار کسب شده: -1053 جنسيت: مرد |
 |
يکشنبه 16 ارديبهشت 1386، ساعت 1:48 |
|
 |
1 سال و 2 ماه پيش |
|
#8
|
| |
فکر مي کنم با توجه به محتواي متن ترتيب قرار گرفتن کلمات در ليست از يه شماره اي به بعد تغيير مي کنه!
البته با توجه به استفاده از ادبيات محاوره اي کار سخت تر مي شه يعني کلمات به هم بي دليل شبيه مي شن! |
|
|
|
|
|
|
 |
|
|