خصوصیات هندسی داده ها در تحلیل توپولوژیک

خصوصیات هندسی داده ها در تحلیل توپولوژیک

در عصر انفجار داده ها هستیم. داده هایی که حاوی اطلاعات بسیار ارزشمندی هستند اما به علت حجیم بودن، پیچیده بودن و به اصطلاح کثیف بودنشان، استخراج دانش و اطلاعات مفید از آنها یک چالش بزرگ محسوب می شود.

در بیست سال گذشته، تحقیقات زیادی پیرامون تحلیل توپولوژیک داده ها (TDA) صورت گرفته است.  تحلیل توپولوژیکی داده ها کاربردهای زیادی در زمینه های مختلفی از جمله تومور شناسی، ستاره شناسی، علوم شناختی و علوم اعصاب، پردازش تصویر و بیوفیزیک دارد.

هدف اصلی تحلیل توپولوژیک داده (که از این پس به اختصار TDA  می نامیم) به کار گرفتن یکی از شاخه های ریاضیات محض یعنی توپولوژی برای مطالعه کردن خصوصیات هندسی داده ها می باشد.

در این متن منظور از «داده»، مجموعه ای متناهی از نقاط در فضا می باشد.

به طور کلی فضایی که نقاط ما در آن قرار می گیرد، می تواند ابعاد زیادی داشته باشد، اما اکنون ممکن است خواننده، نقاط مذکور را در فضایی دو یا سه بعدی در نظر گرفته باشد.

برای مثال، در مطالعه ای که درباره سرطان انجام شده است، هر نقطه در یک مجموعه داده ی سه بعدی نشان دهنده ی یک تومور است و مختصات  x, y, z متعلق به هر نقطه احتمالا نشان دهنده ویژگی های مختلف ژنها  در یک بافت نمونه ای تومور می باشند.

حال منظور از خصوصیات هندسی داده ها چیست؟

در اینجا به جای ارائه تعریفی رسمی بهتر است، به بررسی سه مثال در حوزه تحلیل توپولوژیک داده ها که خصوصیات هندسی این داده ها در آنها دسته بندی و بررسی شده است، بپردازیم.

به عنوان مثال اول، داده های شکل 1 را در نظر بگیرید. مشاهده می کنیم که داده ها به سه «خوشه» یا بخش مختلف جدا  شده اند. خوشه هایی مشابه این شکل، اولین نوع از خصوصیات هندسی داده هایی هستند که در تحلیل داده به روش توپولوژی مورد مطالعه قرار می گیرند. ما ترجیح می دهیم تعداد خوشه های مجزا را در داده ها را بشماریم و آنها را به همین خوشه ها افراز کنیم. ما دوست داریم همین کار را با داده هایی هم که مانند شکل 2 بهم ریخته و کثیف هستند انجام دهیم.

                                                                            شکل 1

 

                                                                            شکل 2

مشکل تشخیص این خوشه بندی ها، یکی از مسائل قدیمی در حوزه علوم کامپیوتر و آمار می باشد که بسیار هم مورد مطالعه قرار گرفته است. اما به کمک روشهای TDA  ابزار و ایده های جدیدی برای حل آن در دست داریم.

نوع دوم خصوصیات هندسی ای که در مورد داده ها، در تحلیل توپولوژیک داده ها مطالعه می کنیم، «حلقه» یا لوپ می باشد. شکل 3 نمونه ای از یک حلقه در مجموعه ای از داده ها را نشان می دهد. در اینجا هم ما دوست داریم که بتوانیم حلقه ها یا لوپ ها را در داده ها تشخیص دهیم، حتی در مواقعی که داده هایمان کثیف و بهم ریخته هستند، مانند شکل 4.

                                                                          شکل 3 

 

                                                                                                                   

                               شکل 4                                  

سومین خصوصیت هندسی که در داده ها با TDA مورد مطالعه قرار می دهیم، «پیچک» ها هستند. شکل 5 مجموعه داده ای را نشان می دهد که سه پیچک از یک هسته مرکزی بیرون آمده اند. در مجموعه داده هایی با این ساختار، ما به دنبال الگوهایی به شکل پیچک هستیم تا تعداد آنها را بشماریم و داده هایمان را به پیچک های مختلف افراز کنیم.

 

                                                                          شکل 5

هدف تحقیقات در زمینه تحلیل داده به کمک روش های توپولوژی، توسعه ابزار هایی است تا به ما کمک کنند بتوانیم راحت تر این خصوصیات هندسی را در داده ها تشخیص بدهیم.

همچنین توسعه روشهایی که به کمی کردن خصوصیات مهم آمار در یک نمونه داده تصادفی کمک کند.  چرا که بیشتر داده هایی که در کارهای علمی تولید می شوند، ابعاد بالایی دارند  بنابراین تمرکز بر توسعه ابزارهایی است که توان بررسی خصیصه های هندسی در ابعاد بالا را داشته باشند.

 

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *