صفحه نخست  •  فهرست تالارها  •  نگارخانه  •  لیست اعضا  •  گروه‌ها  •  جستجو  •  ورود
 
1
ارسال موضوع جدیدپاسخ به موضوع
نویسنده پیغام
احسانآفلاين
آخر آدم بيکار!
آخر آدم بيکار!

آواتار

تاريخ عضويت: دوشنبه 19 خرداد 1382
مجموع ارسالها: 4967
اعتبار کسب شده: 9596
محل سکونت: شيراز
سن: 26
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 20:48
 1 سال و 2 ماه پيش
#1
 
بعضي کلمات در هنگام دسته بندي متون، ارزشي ندارند. از اين نمونه کلمات ميتوان به "از"، "به"، "دارم"، "سپس"، "مثلا" و ... اشاره کرد.
توضيح اينکه هدف يافتن موضوعات مشابه با موضوع ارسالي است. به اين معنا که هنگام ارسال يک نوشته، اگر آن نوشته با نوشته (يا نوشته هاي) ديگري در تالار "خيلي مشابه" و احتمالا تکراري باشد، آنرا کشف کنيم. ساده ترين راه براي اينکار شمارش تعداد کلمات مشترک بين نوشته ارسالي با هر ارسال ديگر است. مشکل اينجاست که کثرت کلمات پربسامد باعث تصميم گيري نادرست ميشود. هدف اينست که بتوانيم اينگونه کلمات را تشخيص داده و از ايندکس شدن آنها جلوگيري کنيم.
ساده ترين راه استفاده از يک پايگاه داده کلمات پربسامد ميباشد... آيا ياري کننده اي است؟

_________________
» تنهايي خيلي خوب است... ... ... اما دونفره‌اش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
کلاغ سفيدآفلاين
پرچونه!!
پرچونه!!

آواتار

تاريخ عضويت: شنبه 20 آبان 1385
مجموع ارسالها: 621
اعتبار کسب شده: 852
محل سکونت: آخر قصه...
سن: 23
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 21:17
 1 سال و 2 ماه پيش
#2
 
دقيق تر بگو بايد چه کار کنيم تا ببينيم ميتونيم کمکت کنيم؟!

اما اين تاپيکهاي مرتبط به نظر خيلي بي ربط ميان...

_________________
باور کردني نيست....
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
احسانآفلاين
آخر آدم بيکار!
آخر آدم بيکار!

آواتار

تاريخ عضويت: دوشنبه 19 خرداد 1382
مجموع ارسالها: 4967
اعتبار کسب شده: 9596
محل سکونت: شيراز
سن: 26
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 21:42
 1 سال و 2 ماه پيش
#3
 
کلاغ سفيد نوشته بود:
دقيق تر بگو بايد چه کار کنيم تا ببينيم ميتونيم کمکت کنيم؟!

اما اين تاپيکهاي مرتبط به نظر خيلي بي ربط ميان...


دليلش همين هست ديگه! موضوعات مرتبط بايد بر اساس کلمات کليديشون مشخص بشن، مثلا "رفسنجاني"، اما متسافانه انبوه کلمات بيربط مثل "شنيدم"، "گفتم"، "از"، "با" و ... الگوريتم رو خراب ميکنند. بايد يه جوري اين کلمات رو فيلتر کرد. تا جايي که ميدونم به اين کلمات کلمات پربسامد گفته ميشه و من دنبال ليستي از اين کلمات هستم. البته يک راه حل نه چندان خوب دارم و اون اينه که کلماتي که تا به حال توي تالارهاي گفتمان مثلا بيش از 1000 بار تکرار شدن رو کلمات پر بسامد بگيريم، اما اين کار خيلي درست نيست.

_________________
» تنهايي خيلي خوب است... ... ... اما دونفره‌اش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
mhajiآفلاين
آخر آدم بيکار!
آخر آدم بيکار!

آواتار

تاريخ عضويت: دوشنبه 19 خرداد 1382
مجموع ارسالها: 3387
اعتبار کسب شده: 3504
محل سکونت: Montreal
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 21:46
 1 سال و 2 ماه پيش
#4
 
احسان نوشته بود:
بعضي کلمات در هنگام دسته بندي متون، ارزشي ندارند. از اين نمونه کلمات ميتوان به "از"، "به"، "دارم"، "سپس"، "مثلا" و ... اشاره کرد.
توضيح اينکه هدف يافتن موضوعات مشابه با موضوع ارسالي است. به اين معنا که هنگام ارسال يک نوشته، اگر آن نوشته با نوشته (يا نوشته هاي) ديگري در تالار "خيلي مشابه" و احتمالا تکراري باشد، آنرا کشف کنيم. ساده ترين راه براي اينکار شمارش تعداد کلمات مشترک بين نوشته ارسالي با هر ارسال ديگر است. مشکل اينجاست که کثرت کلمات پربسامد باعث تصميم گيري نادرست ميشود. هدف اينست که بتوانيم اينگونه کلمات را تشخيص داده و از ايندکس شدن آنها جلوگيري کنيم.
ساده ترين راه استفاده از يک پايگاه داده کلمات پربسامد ميباشد... آيا ياري کننده اي است؟


من unigram (و حتي bigram) کلمات فارسي رو دارم.
ولي همونطور که آقاي يوسفان در پايان نامه اش نوشته با استفاده از فرکانس کلمات به تنهايي نميتونيم stop word ها را با دقت خيلي بالا جدا کنيم. حتي اگه اندازه مجموعه نوشته جات خيلي زياد باشه. ولي به نظر من به هر حال براي شروع خوبه.

براي اثبات حرف يوسفان، اولين 100 کلمه پر فرکانس فارسي رو از unigram خودم - که از چيزي در حدود 7,300,000 کلمه استخراج شده - ليست ميکنم:

و
مي
به
در
كه
از
را
اين
است
با
آن
هاي
ها
ي
هم
سروش
براي
يك
بود
اي
تا
شود
من
او
كند
فيلم
شده
يا
ما
شد
كار
برنامه
كرد
نمي
خود
هر
همه
اما
باشد
دارد
تاريخ
بر
چه
سال
ديگر
شركت
كرده
اند
كنند
گفت
سريال
تر
بايد
دست
دو
اگر
بعد
شبكه
تمام
روي
بي
نامه
بازي
س
شما
استفاده
انتشارات
نيست
كنم
هايي
نيز
فقط
يكي
جستجو
چون
پخش
خيلي
همين
بيش
نه
جوان
تو
پيش
مورد
زندگي
پس
ولي
حال
هيچ
قرار
نظر
هفته
وجود
روز
وقتي
خانه
مردم
كنيد
فكر
چند

همونطور که ميبيني به استثناي چند کلمه مثل سروش، فيلم، سريال، شبکه بقيه واقعا stop word هستند.
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
احسانآفلاين
آخر آدم بيکار!
آخر آدم بيکار!

آواتار

تاريخ عضويت: دوشنبه 19 خرداد 1382
مجموع ارسالها: 4967
اعتبار کسب شده: 9596
محل سکونت: شيراز
سن: 26
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 21:58
 1 سال و 2 ماه پيش
#5
 
اين ديتابيس رو چه جوري ميشه به دست آورد؟

___
من براي کاهش حجم ايندکسم، کلمات کمتر از چهار حرف رو اصلا به حساب نميارم. نتيجتاً فقط کلمات چهار حرفي و بلندتر رو ميخوام.

با تشکر

_________________
» تنهايي خيلي خوب است... ... ... اما دونفره‌اش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
mhajiآفلاين
آخر آدم بيکار!
آخر آدم بيکار!

آواتار

تاريخ عضويت: دوشنبه 19 خرداد 1382
مجموع ارسالها: 3387
اعتبار کسب شده: 3504
محل سکونت: Montreal
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 22:20
 1 سال و 2 ماه پيش
#6
 
احسان نوشته بود:
اين ديتابيس رو چه جوري ميشه به دست آورد؟


اگه فقط ليست کلمات رو لازم داري، يه فايل متنيه که در وب سايت گذاشته بودمش: 41 هزار کلمه فارسي به ترتيب فرکانس

ولي اگه احتمال کلمات - در واقع مدل unigram - رو هم لازم داري، امر کن تا بفرستمش.


احسان نوشته بود:

من براي کاهش حجم ايندکسم، کلمات کمتر از چهار حرف رو اصلا به حساب نميارم. نتيجتاً فقط کلمات چهار حرفي و بلندتر رو ميخوام.


با اين حساب کلمات متمايز کننده اي مثل ربا، مرگ، نفت، زخم، خشم، باغ، نور، موج و ... رو هم حذف ميکني؟!
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
احسانآفلاين
آخر آدم بيکار!
آخر آدم بيکار!

آواتار

تاريخ عضويت: دوشنبه 19 خرداد 1382
مجموع ارسالها: 4967
اعتبار کسب شده: 9596
محل سکونت: شيراز
سن: 26
جنسيت: مرد
ارسال شنبه 15 ارديبهشت 1386، ساعت 22:24
 1 سال و 2 ماه پيش
#7
 
ممنون.

فعلا که اينطوره! بايد ببينم نتيجه کار چي ميشه، اگه کيفيت خيلي پائين بياد، مجبورم يه فکري به حالشون بکنم.

_________________
» تنهايي خيلي خوب است... ... ... اما دونفره‌اش!
» برنج را با وام بانکي ميخريم، نان را قسطي و ديگر هيچ!
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
سالم
پرچونه!!
پرچونه!!

مجموع ارسالها: 594
اعتبار کسب شده: -1053
جنسيت: مرد
ارسال يکشنبه 16 ارديبهشت 1386، ساعت 1:48
 1 سال و 2 ماه پيش
#8
 
فکر مي کنم با توجه به محتواي متن ترتيب قرار گرفتن کلمات در ليست از يه شماره اي به بعد تغيير مي کنه!
البته با توجه به استفاده از ادبيات محاوره اي کار سخت تر مي شه يعني کلمات به هم بي دليل شبيه مي شن!
 
1
1
0
پاسخ به صورت نقل قول بازگشت به بالای صفحه
نمایش پیغامهای ارسال شده قبلی:      
ارسال موضوع جدیدپاسخ به موضوع
موضوعات مرتبط
هيچ پيغام جديدي ارسال نشده است تو رو خدا فارسي!
1
پاسخها: 6 بیننده: 512 نویسنده: احسان
هيچ پيغام جديدي ارسال نشده است هک کردن سايت لينوکس فارسي + گنو
2
پاسخها: 11 بیننده: 620 نویسنده: جواد
هيچ پيغام جديدي ارسال نشده است اغاز به کار سايت فارسي وزارت خارجه اسرائيل
1
پاسخها: 9 بیننده: 715 نویسنده: majidjon13
هيچ پيغام جديدي ارسال نشده است فراتر از کلمات
1
پاسخها: 20 بیننده: 972 نویسنده: mhaji

مشاهده موضوع قبلی مشاهده موضوع بعدی
قبلی تالار بعدی

 پرش به:   

شما نمی‌توانید در این تالار موضوع جدیدی ارسال کنید
شما نمی‌توانید به موضوعات این تالار پاسخ دهید
شما نمی‌توانید پیغامهای ارسالی خود در این تالار را، ویرایش کنید
شما نمی‌توانید پیغام های ارسالی خود در این تالار را حذف کنید
شما نمی‌توانید در نظرسنجی‌های این تالار شرکت کنید
قوانين تالارهاي گفتمان گزارش خطا
سوال در مورد تالارهاي گفتمان پيشنهاد
تمام ساعات و تاریخها بر حسب 4.5+ ساعت گرینویچ می‌باشند
تبليغات: