هوش مصنوعی و یادگیری ماشین: چه مقدار داده کافی است؟

موضوع هوش مصنوعی در ذهن هر مدیری وجود دارد. در شرکت‌های سراسر جهان، رهبران کسب‌وکار در مورد چگونگی بهره‌گیری از بینش‌های هوش مصنوعی و ایجاد جریان‌های درآمد جدید صحبت می‌کنند.

مترجم: عرفان ارژمند

کارشناس تولید محتوای ارتباطات یکپارچه پاد

ری اوفارل(Ray O’Farrell)، معاون اجرایی شرکت وی‌ام‌ویر(VMWare) می‌گوید: برای اکثر سازمان‌ها، حجم داده مسئله نیست. شرکت‌های بزرگ معمولاً داده‌های بیشتری از آنچه واقعاً به آن نیازمندند، دارند.

شش نفر از ده مدیر سطح سی(C-Level) که توسط فوربس اینسایت(Forbes Insight) مورد بررسی قرار گرفتند، معتقدند هوش مصنوعی عامل کلیدی موفقیت آینده سازمان آنها است. از هر پنج سازمان، چهار سازمان دارای برنامه‌های هوش مصنوعی هستند یا در حال حاضر آنها را به صورت آزمایشی اجرا می‌کنند. ۷۴ درصد، جداگانه، ۱۰ یا تعداد بیشتری نوآوری [در حوزه هوش مصنوعی] در دست اجرا دارند.

اکسیژنی که به این برنامه ها جان می‌بخشد، “داده” است. ایون هوانگ(Yiwen Huang) مدیرعامل r2.ai (یک پلتفرم خودکار در حوزه یادگیری ماشین) خاطرنشان می‌کند: شما نمی‌توانید بدون مقادیر و انواع داده‌های مناسب، یک مدل یادگیری ماشینی را بسازید، اعتبارسنجی کنید یا موفقیت آن را اندازه گیری کنید.

او می‌گوید: «مقدار داده‌ای که در اختیار دارید مهم است، اما آنچه مهم‌تر است این است که آیا ویژگی‌های آن داده‌ها و توزیع آن، نشان‌دهنده جمعیتی است که شما به دنبال آن هستید یا خیر.»

ری اوفارل معتقد است برای بسیاری از سازمان‌ها، حجم انبوه داده‌هایی که در اختیار دارند یک مشکل است. «نه تنها نیاز به داده‌های بیشتر و زیادتر نیست، بلکه درک نحوه مدیریت و ارزش‌گذاری داده‌هایی است که در حال حاضر دارید و مسئله بزرگ‌تر، ابتدا شناسایی و سازمان‌دهی داده‌هایی است که بیشترین ارزش را برای سازمان دارند، سپس درک جایی که ممکن است برخی از داده‌ها را از دست بدهید، و در نهایت، مدیریت آن‌ها به گونه‌ای که با حریم خصوصی، امنیت و اغلب با قوانین اخلاقی، سازگار و منطبق باشد.»

اوفارل می‌گوید: «سوالاتی که من اغلب از مشتریان خود می‌شنوم این است که «آیا انواع داده‌های مناسب برای تقویت برنامه‌های هوش مصنوعی خود داریم؟» و «چگونه آن را ارزش‌گذاری کنیم؟» سازمان‌ها می‌دانند که داده‌هایی که جمع‌آوری کرده‌اند دارای ارزش است، اما همیشه نمی‌دانند که چگونه این مقدار را کمی کنند یا چگونه آن را استخراج کنند. ارزش یا مقدار عددی این داده‌ها نیز ممکن است در طول زمان تغییر کند. اغلب، اطلاعات با قدیمی‌شدن، ارزش خود را از دست می‌دهند یا “کهنه می‌شوند(out of date)”، اما به گفته اوفارل همیشه اینطور نیست. مقدار یک مجموعه داده ممکن است به طور ناگهانی در پاسخ به یک رویداد خارجی افزایش یا کاهش یابد. به عنوان مثال، خودروهای خودران را در نظر بگیرید. با استفاده از ویدئو، LiDAR و سایر حسگرها، آزمایش و آموزش خودروهای بدون راننده حجم عظیمی از داده‌ها را تولید و بایگانی می‌کند که اکثریت قریب به اتفاق آن‌ها تکراری هستند و ارزش فوری ناچیزی به‌دست می‌دهند. او می‌گوید: «نود درصد مواقع هیچ اتفاق ویژه‌ای نمی‌افتد. اما در آینده، یکی از آن خودروها دچار حادثه می‌شود: اکنون سازنده باید به عقب برگردد و بفهمد که آیا مدل ایمنی را به درستی تایید کرده است یا خیر. ارزش آن داده، محتملا حتی از نقطه نظر قانونی، اکنون به یکباره بیشتر شده است.»

همچنین اضافه می‌کند برای ایمن بودن، به نظر می‌رسد بسیاری از سازمان‌ها به طور پیش‌فرض تمام داده‌ها را برای روزی که ممکن است به آن نیاز داشته باشند، نگه می‌دارند. اما سازمان‌ها هر چه داده‌های بیشتری را حفظ کنند، منابع بیشتری را باید برای ذخیره و ایمن سازی آن صرف کنند. هرچه این انبار داده بزرگتر شود، هدف برای مهاجمان خارجی وسوسه‌انگیزتر است. هنگامی که این داده‌ها توسط چندین واحد انبارشده در یک شرکت کنترل می‌شود، احتمال مسائل مربوط به انطباق(compliance) و نقض داده‌ها(data breaches) به طور قابل توجهی افزایش می‌یابد.

منبع واحدی از صحت و درستی وجود ندارد

در حالی که سازمان‌ها حجم عظیمی از داده‌ها را جمع‌آوری می‌کنند، لزوماً همه آن‌ها را در یک مکان نگه نمی‌دارند یا آنکه به روشی مشابه، تمامی‌شان را مدیریت نمی‌کنند.

در بررسی فوربس اینسایت(Forbes Insight)، ۶۸ درصد از شرکت‌های مورد بررسی به طور فعال در حال ساختن یک نقشه راه سراسری برای مدیریت داده‌ها هستند، اما تنها ۱۱ درصد آن را تکمیل کرده‌اند. فقط دو درصد می‌گویند که یک فرآیند حاکمیت داده قوی در سراسر شرکت دارند که این، اغلب پیامد مستقیم سیلوها و انبارهای اطلاعاتی است.

اوفارل می‌گوید در اکثر سازمان‌ها، بخش فناوری اطلاعات استراتژی داده‌ای خوبی دارد. اما فناوری اطلاعات اغلب تنها گروه مرتبط با جمع‌آوری داده‌ها نیست. برای مثال، اگر سازمانی حسگرهای اینترنت اشیا را مستقر کرده باشد، این داده‌ها معمولاً توسط یک تیم فناوری عملیات جداگانه مدیریت می‌شود. در همین حال، بخش فروش و بازاریابی معمولاً داده‌های مشتری را جمع‌آوری و مدیریت می‌کنند. نه تنها گروه‌های متفاوت با استفاده از خط‌مشی‌های متفاوت، داده‌ها را مدیریت می‌کنند، بلکه ممکن است آن‌ها را در مکان‌های مختلف ذخیره کنند برای مثال، در ابر(Cloud) یا در لبه(Edge).

اوفارل می‌گوید این تصمیم‌ها معمولاً بر اساس ماهیت داده‌ها و نحوه استفاده از آن‌ها است. اگر روزانه یک میلیون ویدئو برای تلفن‌های همراه مردم ارائه می‌کنید، می‌خواهید این داده‌ها در فضای ابری و به طور گسترده توزیع شوند. اگر سوابق مشتریان یا کارمندان را ایمن می‌کنید، به احتمال زیاد آن را در مرکز داده شخصی نگه می‌دارید، یا اگر در فضای ابری است، به تضمین حاکمیت و امنیت نیاز دارید (حتی در مورد محل قرارگیری داده ها و امکان حذف آن).

اما این سیلوها، اعمال تجزیه و تحلیل در کل مجموعه داده‌های خود را برای سازمان‌ها سخت‌تر می‌کنند که منجر به احتمال تداخل(Conflict) و مسائل مربوط به انطباق می‌شود.

اوفارل خاطرنشان می‌کند که داده‌های سازمانی همچنین احتمالاً در مکان‌های مختلف منعکس، تکرار یا پشتیبان‌گیری می‌شوند. بر اساس مقررات عمومی حفاظت از داده‌های اتحادیه اروپا (GDPR)، مشتریان یک سازمان، حق دارند تا بخواهند اطلاعاتشان به فراموشی سپرده شود. تعداد زیاد مکان‌هایی که ممکن است آن داده‌ها در آن قرار داشته باشند، انجام چنین درخواستی را بسیار پیچیده می‌کند. مشکل ذخیره‌سازی داده‌ها هنگام برخورد با صنایعی که به شدت تحت نظارت هستند، مانند خدمات مالی یا مراقبت‌های بهداشتی، حادتر می‌شود.

اوفارل می‌گوید: «شرکت‌ها از داشتن منابع متعدد صحت و درستی داده، ناراحت هستند. آنها از این ناراحتند که نمی‌دانند داده‌هایشان کجاست یا اینکه خصوصی و ایمن است یا خیر. شرکت‌ها این درخواست را دارند که «چگونه می‌توانم این اطلاعات را یکپارچه و هماهنگ کنم؟»

داده‌هایی که رهبران میخواهند

اسکات اسنایدر(Scott Snyder)، شریک شرکت هدریک اند استراگلز(Heidrick & Struggles) [یک شرکت مشاوره و جستجوی اجرایی مستقر در شیکاگو] می‌گوید: چالش‌های ناشی از سیل داده‌ها(data deluge) باعث می‌شود برخی از شرکت‌ها به دنبال دسته جدیدی از مدیران باشند که هوش تجاری(business acumen) را با تخصص تحلیلی(analytics expertise) ترکیب می‌کنند.

اسنایدر ادامه می‌دهد: «در هیدریک، ما موقعیت‌های رهبری زیادی مانند افسر ارشد هوش مصنوعی و مدیر ارشد داده‌ها را قرار می‌دهیم. ما همچنین به دنبال افرادی با پیشینه‌های داده فشرده(data-intensive نوعی از پردازش موازی داده‌ها) هستیم که بتوانند این مهارت‌ها را با دانش سازمانی یا عملکردی مانند منابع انسانی، قانونی یا زنجیره تامین، پیوند بزنند. شرکت‌ها علاقه زیادی به یافتن این نوع رهبران دارند.»

این در حالی است که اوفارل نیاز به یک مدیر ارشد داده را الزامی نمی‌بیند. او معتقد است هر سازمان بزرگی به کسی نیاز دارد که بتواند از یک دید سی‌هزار فوتی [بسیار بالا] به این مسائل نگاه کرده تا اطمینان حاصل کند که مجموعه داده‌هایش به روز هستند و بر بهترین منابع اطلاعاتی تکیه زده‌اند.

او می‌گوید: «آنچه من دیده‌ام، ظهور یک افسر دیجیتال به عنوان زیرمجموعه مدیر ارشد فناوری اطلاعات(Chief Information Officer (CIO)) سازمان است. از آنجایی که سازمان‌ها بینش‌های بیشتری را از تمامی این داده‌ها استخراج می‌کنند، من قطعاً نیاز به کسی را حس می‌کنم که بتواند به سیاست‌های داده‌ای سازمان در سطح کلان نگاه کند تا اطمینان حاصل ‌شود داده‌ها معتبر و ایمن هستند، منبع آن شناخته شده است و نیز مطمئن شود که از داده‌ها به شیوه‌ای قانونی و اخلاقی استفاده می‌شود.

این مقاله در سال ۲۰۲۱ میلادی توسط بخش تحقیقات شرکت دل (DELL) در فوربس منتشر شده است:

https://www.forbes.com/sites/delltechnologies/2019/04/15/ai-and-machine-learning-how-much-data-is-enough/?sh=46ad57ec3536

ارسال دیدگاه

آدرس ایمیل شما منتشر نخواهد شد.