date_range چهارشنبه ۲۴ آبان ۱۳۹۶ access_time ۰۴:۴۶:۴۴ ق.ظ

گفت‌وگوی اختصاصی با دکتر مسعود مکره‌چی، متخصص داده‌کاوی متن و دانشیار انستیتو تکنولوژی دانشگاه انتاریو کانادا روزگار اعتماد به کلان‌داده‌ها

گفت‌وگوی اختصاصی با دکتر مسعود مکره‌چی، متخصص داده‌کاوی متن و دانشیار انستیتو تکنولوژی دانشگاه انتاریو کانادا روزگار اعتماد به کلان‌داده‌ها
منبع خبر: جام‌جم آنلاین

هنگامی که نام یک متخصص داده‌کاوی را می‌شنوید، چه تصوری از زمینه فعالیت او دارید؟ تصور من این بود که هنگام گفت‌وگو با دکتر مسعود مکره‌چی باید از استخراج داده‌های کلان در محاسبات رایانه‌ای و تجزیه و تحلیل اطلاعات پیچیده بپرسم، اما او با ورود به دفتر روزنامه جام‌جم و پیش از طرح پرسشی از طرف من، از اهمیت تحلیل داده‌ها برای جذب مخاطبان یک روزنامه گفت!

به گفته این متخصص داده‌کاوی متن، پرمخاطب‌ترین روزنامه‌های جهان امروزه بخش بزرگی از سازمان خود را به تجزیه و تحلیل داده‌های گرفته شده از مخاطب اختصاص داده‌اند تا به این ترتیب بهترین راه‌حل را برای انتقال اخبار به مخاطب پیدا کنند. در پایان گفت‌وگو به دنیای اطرافمان نگاه می‌کردم که در هر گوشه نشانه‌ای از وجود کلان‌داده‌ها دارد و داده‌کاوی چقدر سبک زندگی ما را دگرگون کرده است. دنیای امروز، دنیای داده‌های کلان است و می‌توان گفت هر یک از ما در هر لحظه در معرض هجوم هزاران داده اطراف خود هستیم. هنگامی که با حجم زیادی از این داده‌ها روبه‌رو می‌شویم، برای مدیریت آن لازم است تقسیم‌بندی مناسبی صورت گیرد تا بتوان داده‌ها را مدیریت کرد. داده‌های وسیع دنیای امروز ما به استخراج، طبقه‌بندی و تحلیل نیاز دارد و دکتر مسعود مکره‌چی، استاد انستیتو تکنولوژی دانشگاه انتاریو کانادا، یکی از متخصصان تجزیه و تحلیل این داده‌ها بخصوص در اسناد و متون نوشتاری است. آنچه در ادامه می‌خوانید، گفت‌وگوی اختصاصی ما در باب اهمیت و کارکرد تکنیک داده‌کاوی در متن است.

داده‌کاوی چگونه می‌تواند در پیدا کردن سلیقه مخاطب و موضوعاتی که بیشتر از آنها استقبال می‌شود، به تولیدکنندگان محتوا کمک کند؟

بگذارید با مثالی توضیح دهم. در بحث اخبار، رسانه‌ها گرایش مخاطب را می‌دانند و در آن جهت گزارش‌های خود را آماده می‌کنند. البته هر رسانه‌ای ارزش‌ها و اهداف خود را دنبال می‌کند، اما در مورد چگونگی جلب توجه مخاطب، می‌توان از داده‌کاوی و تحلیل داده‌ها کمک گرفت. فرض کنید بتوانیم ذائقه مردم را در کتابخوانی پیدا کنیم و بدانیم افراد با چه جنسیت، سن،‌ شغل و موقعیت جغرافیایی به کدام موضوعات علاقه نشان می‌دهند. به همین ترتیب تحلیل داده‌ها مشخص می‌کند چه موضوعاتی به پرفروش‌شدن یک کتاب کمک می‌کند.

گرچه یک ربات نمی‌تواند خلاقیت داشته باشد و حداقل دانش امروز ما به چنین چیزی نرسیده است، اما می‌تواند اطلاعاتی از تحلیل داده‌ها به ما بدهد که در نهایت به گیراتر شدن یک ایده کمک کند. برای مثال یکی از شبکه‌های جهانی پخش آنلاین فیلم بعد از مدتی، سلیقه مخاطب را پیدا کرده و اکنون از یک شبکه توزیع، به تولیدکننده فیلم تبدیل شده است.

علاوه بر این در حوزه‌های دیگر مثل ورزش نیز داده‌کاوی نقش موثری ایفا می‌کند. ورزش حوزه‌ای بود که زمانی نسبت به فناوری مقاومت نشان می‌داد، اما امروز آنالیزهای ورزشی، داده‌هایی مثل چگونگی ترکیب و چینش بازیکنان در زمین را به مربی می‌دهد تا تیم در بهترین حالت خود بازی کند.

چگونه به این داده‌ها و نتایجی که از آنها گرفته می‌شود می‌توان اعتماد کرد؟

همان طور که خرد جمعی، معمولا در نهایت به نتیجه‌ای مثبت منتهی می‌شود که می‌تواند سازنده باشد، هرچه حجم داده‌های تحلیل شده بیشتر باشد، می‌توان نتیجه بهتری از آن گرفت. هنگامی که داده‌ها خیلی زیاد است، میزان خطا کمتر می‌شود و چکیده صحیح و کاملی از داده‌های تحلیل‌شده به دست می‌آید. هدف داده‌کاوی پیش‌بینی ‌الگوها و پیش‌بینی ناپذیرهایی برای هر فرد است که در نهایت طبق آنها رفتار می‌کند. تحلیل این الگوها می‌تواند نیازهای فرد را پیش‌بینی کرده و پیشنهادهایی متناسب با این نیازها به فرد ارائه کند. جوامع با وجود کلان‌داده‌ها پیش‌بینی‌پذیرتر از قبل شده‌اند و بنابراین افراد می‌توانند خدمات بهتر دریافت کنند. علاوه بر این کلان داده‌ها اطلاعات صادقانه به ما می‌دهند، به طوری که نمی‌توان آنها را با تقلب و دستکاری طوری تغییر داد که سرنوشت نتایج آنها را دگرگون سازد. دلیل آن نیز عظیم بودن این داده‌ها و متنوع و مستقل بودن منابع آن است. ما بخصوص در محاسبات اجتماعی نیاز به تحلیل داده‌ها داریم، چون این داده‌ها صادقانه و صحیح هستند و بزرگ بودن حجم اطلاعات به ما در پیشبرد اهداف کمک می‌کند. برای مثال انبوه نظرات مردمی که در شبکه‌های اجتماعی منتشر می‌شود صادقانه است و می‌توان از تحلیل آنها نتایج کاربردی گرفت.

نیمه تاریک تحلیل داده‌ها در شبکه‌های اجتماعی چیست؟ می‌توان تاثیرات منفی را نادیده گرفت؟

تحلیل داده‌ها در پی واگذارکردن بخشی از حریم خصوصی به دست می‌آید و این هزینه‌ای است که ما برای استفاده از نتایج تحلیل این داده‌ها می‌دهیم، اما هدف تحلیل داده‌ها از طریق جمع‌آوری اطلاعات جامعه، مشخص کردن روند جاری در جامعه است و به‌طور شخصی به اطلاعات افراد کاری ندارد. در نهایت نیز این اطلاعات به عنوان داده‌های طبقه‌بندی شده برای استفاده خود فرد ارائه می‌شود و می‌توان از پیشنهادهای مرتبط استفاده کرد. در واقع می‌توان گفت هنگامی استفاده از این اطلاعات تجاوز به حریم خصوصی افراد محسوب می‌شود که در اختیار شرکت‌ها و سازمان‌های بزرگ برای استفاده‌های تبلیغاتی یا جاسوسی قرار بگیرد.

با در نظر گرفتن همه این شرایط، ما به کلان داده‌ها اعتماد می‌کنیم. زیرا کلان داده‌ها از توزیع‌های آماری تبعیت می‌کنند و خصوصیاتی دارند که نمی‌توان در آنها تصرف کرد و روندها را کاملا صادقانه منتقل می‌کنند.

از چه زمانی انسان با بحث کلان داده‌ها روبه‌رو شده است؟

کلان داده‌ها همیشه وجود داشته‌اند، اما امروز با گسترش اینترنت، شتاب تولید داده‌ها به شکل غیرقابل باوری زیاد شده است. تصور کلان داده در دنیای امروز بدون وجود رسانه‌های اجتماعی سخت است، زیرا پیش از این فقط پایگاه‌های داده وجود داشت که در سازمان‌های بزرگ انبار شده بود، اما امروز خود کاربران داده‌ها را تولید می‌کنند. رسانه‌های اجتماعی امروز روی تولید، پخش و کیفیت محتوا تاثیرگذارند و در نهایت خودشان مصرف‌کننده این محتوا هستند. امروز وسیله‌ای به نام تلفن‌های همراه هوشمند وجود دارد که در حالت‌های مختلف در حال تولید داده است. هر کدام از برنامه‌های این گوشی به شکلی داده تولید می‌کند و چون موفقیت هر برنامه در فراگیرشدن آن است، این داده‌ها به صورت نمایی (تصاعدی) افزایش پیدا می‌کند. اگر حجم داده‌ها زیاد نباشد، نمی‌توان الگوهای صحیح و رفتارهای پیش‌بینی‌پذیر از آن استخراج کرد. کلان داده در دنیای امروز ما با نفت مقایسه می‌شود. داده‌ها به صورت خام مثل نفت کثیف هستند، اما از هر دو چیزهای باارزشی به دست می‌آید. همچنین نفت در دوره‌ای از تاریخ فاصله فقیر و غنی را کم کرده و امروز کلان داده فرصتی برای کشورهای در حال توسعه است تا فاصله خود را با کشورهای پیشرفته کمتر کنند. چون ما الان هم داده تولید می‌کنیم و هم می‌توانیم با تصفیه داده‌ها از آنها استفاده‌های بهینه کنیم.

در کاوش متن چه اطلاعاتی تحلیل می‌شود و این اطلاعات چگونه می‌تواند به ما کمک کند؟

هنگامی که ما با نوشته‌های تولید شده ذهن آدمی سر و کار داریم، به دنبال زبان طبیعی این نوشته‌ها هستیم که منبع تولید آن انسان است. با کمک زبان طبیعی و از روی نوشته‌ها می‌توان به جنسیت، سن و بسیاری از ویژگی‌های شخصیتی افراد پی برد. در واقع می‌توان گفت نوشته هر فرد به نوعی امضای اوست. برای مثال بیشتر زنان از ضمیر و مردان از اسم‌ها در نوشته خود استفاده می‌کنند.

یک متن در نهایت به داده تبدیل می‌شود، متن از کلماتی تشکیل شده و کلمات از توزیع‌های آماری تبعیت می‌کنند و به این ترتیب داده‌ها به دست می‌آیند. ترکیب کلمات استفاده شده نیز اطلاعات خوبی برای تحلیل داده‌ها ارائه می‌دهد. در حال حاضر تحلیل متن و پردازش زبان طبیعی موتور اصلی تحلیل رسانه‌های اجتماعی است. زیرا رسانه‌های اجتماعی براساس زبان طبیعی پیش می‌رود و نحوه استفاده از کلمات زبان افراد را مشخص می‌کند. هدف ما در تحلیل داده‌ها این است که تا جای ممکن پیچیدگی کلمات را کم کنیم تا بتوانیم با این ابزار بخوبی کار کنیم.

امروز هر جا که انسان محتوایی تولید می‌کند، ازجمله مقالات علمی، اخبار، شبکه‌های اجتماعی و تبلیغات، داده‌کاوی و متن‌کاوی هم کاربرد دارد. برای مثال در حوزه پزشکی سالانه دو تا سه میلیون مقاله منتشر می‌شود، از تحلیل این مقاله‌ها می‌توان ارتباطات موثری بین بسیاری از بیماری‌ها و داروها پیدا کرد که تا به حال کشف نشده است. البته این نتایج باید ارزش‌گذاری شود و پس از کشف این رابطه‌ها صحت آنها با آزمایش و روش‌های دیگر تائید شود.

ارتباط داده‌کاوی با پیشرفت‌های نوین یادگیری ماشینی چیست؟

پیشینه یادگیری ماشینی به هوش مصنوعی برمی‌گردد. پیش از آن که رایانه‌های دیجیتال ساخته شود، کسی مثل آلن تورینگ (ریاضیدان و متخصص علوم رایانه) در اوایل دهه 1330/ 1950، اولین نظریه هوش مصنوعی را ارائه داده است. بنابراین ایده برنامه‌هایی که بتوانند راه‌حل‌ها را پیدا کنند، از آن زمان وجود داشته است، اما کار هوش مصنوعی این است که بهترین راه‌حل را پیدا کند و این تفاوت الگوریتم‌های معمولی و الگوریتم‌های هوش مصنوعی است. حال فرض کنید هوش مصنوعی همان سودای پرواز باشد که بشر ابتدا فکر می‌کرد برای پرواز باید پرواز پرنده را تقلید کند. به این ترتیب هوش مصنوعی خیلی تلاش کرد فرآیند یادگیری بشر را تقلید کند، که چندان موفق نبود، اما یادگیری ماشینی برای پرواز به تقلید حرکت پرنده فکر نمی‌کند و فرآیند پرواز را در نظر می‌گیرد. در واقع هوش مصنوعی قواعد را پیاده می‌کند و در یادگیری ماشینی براساس داده‌ها و به صورت آماری مدل‌سازی انجام می‌شود. نحوه حل مساله در یادگیری ماشینی نیز از تحلیل داده‌ها به دست می‌آید.

تحلیل داده‌های کلان چگونه می‌تواند کیفیت زندگی امروز انسان را تغییر دهد و در چه زمینه‌هایی نقش آن بیشتر دیده می‌شود؟

داده‌کاوی فرصت جدیدی برای استعدادهای ایرانی است که می‌توانند به کمک آن موفقیت‌های چشمگیری در این زمینه کسب کنند. بحث شرکت‌های دانش بنیان که امروز در دنیا مطرح است نیز مبتنی بر داده‌ها و ایجاد ارزش افزوده از آنهاست. این داده‌ها در همه جای دنیا همواره در حال تولید است و نیاز به استعدادهایی دارد که این داده‌ها را تحلیل کرده و از آنها استفاده کنند.

به عنوان مثال اگر بتوان از روی داده‌ها اطلاعاتی به دست آورد و ارتباطی بین نقاط حادثه‌خیز جاده‌ها، زمان سال، سن راننده و اطلاعات به ظاهر غیرمرتبط دیگر را شناسایی کرد، می‌توان حداقل 10 درصد از حجم تصادفات را کاهش داد و از متلاشی شدن حدود
2000 خانواده جلوگیری می‌شود. به این ترتیب این داده‌ها در بسیاری از زمینه‌ها به بهبود زندگی افراد کمک می‌کنند.

داده‌کاوی اجتماعی چیست؟

محاسبات اجتماعی و انسانی بخشی از داده‌کاوی است که به تحلیل رفتارها و نیازهای افراد با شرایط مختلف می‌پردازد. استفاده از ساختارهای اجتماعی مثل تشخیص نقش‌های اجتماعی، پیش‌بینی نقش‌های شغلی، استخراج تراکنش‌های مربوط به شبکه‌های اجتماعی و طبقه‌بندی ارتباطات اجتماعی چند بعدی ازجمله روش‌های تحلیل داده‌های اجتماعی است.

در واقع یک شبکه اجتماعی به عنوان یک ساختار اجتماعی از افراد تعریف می‌شود که براساس انواع رابطه‌های انسانی بنا شده است. این شبکه‌ها می‌توانند در ارتباط با مشاغل، علاقه‌مندی مشترک یا دوستی بنا شده باشند. تشخیص گروه‌بندی و پیدا کردن زیرگروه‌های هر کدام از این رابطه‌ها می‌تواند اطلاعات بی‌شماری از علاقه‌مندی،‌ نیازها و نحوه برخورد کاربران با جهان اطراف به دست دهد. به این ترتیب نتیجه داده‌کاوی اجتماعی می‌تواند در تحلیل احساسات، تحلیل ادبیات و فیلم، تقسیم‌بندی داده‌هایی مثل اسناد، تجزیه و تحلیل ورزشی و دیگر داده‌های علمی مشابه تاثیرگذار باشد.

با دکتر مسعود مکره‌چی بیشتر آشنا شوید

دکتر مسعود مکره‌چی، متخصص داده‌کاوی متن، سال 1369 در رشته مهندسی برق از دانشگاه علم و صنعت ایران در مقطع کارشناسی فارغ‌التحصیل شد. سپس دوره کارشناسی ارشد مهندسی کامپیوتر را در دانشگاه شیراز گذراند و سپس برای ادامه مطالعات خود در زمینه مهندسی برق و کامپیوتر به دانشگاه واترلو کانادا رفت. او اکنون دانشیار انستیتو تکنولوژی دانشگاه انتاریو کاناداست و در زمینه محاسبات اجتماعی و انسانی مطالعه می‌کند. استخراج داده‌های متن، داده‌کاوی شبکه‌های اجتماعی و مطالعه روی سیستم‌های هوش مصنوعی و یادگیری ماشینی از دیگر علایق این محقق در زمینه داده‌کاوی است.

سپیده شعرباف

نمایش موجودیت‌ها