ما المقصود بالبحث في المستندات؟
البحث المستندي هو بحث يعمل بشكل أساسي على النص الحر غير المهيكل (وليس المستندات فقط). وسواء كنت تبحث عن صفحة ويب أو ترغب في العثور على منتج أو تعمل على محتوى منسق، فستستخدم محرك بحث للقيام بذلك. ستذهب إلى صفحة الويب وتكتب في مربع البحث. انقر «بحث» وستتلقى (غالبًا) بعض العناصر ذات الصلة التي تلبي بحثك وهدفك لمتعلق بمعلومة معينة.
نشأت محركات البحث من تقنية قواعد البيانات - فهي تخزن البيانات وتقوم بمعالجة الاستفسارات في ظل هذه البيانات. تعمل قواعد البيانات التقليدية مع محتوى مهيكل - تُنظم البيانات في جداول وأعمدة ومع مخططات مدمجة. تتمثل وظيفة قاعدة البيانات في استرداد جميع صفوف البيانات بناء على استفسارات تتماشى مع القيم الموجودة في الأعمدة. تعمل محركات البحث بالبيانات (المستندات) المهيكلة التي تتضمن كلًا من بيانات التعريف وكتل كبيرة من النص المهيكل (النص الحر). تستخدم محركات البحث قواعد لغوية لتقسيم هذه الكتل النصية الكبيرة إلى مصطلحات يمكن مقارنتها. وتأتي محركات البحث مزودة بإمكانية تصنيف مدمجة تمكنها من طلب النتائج ولإظهار أفضلها في المقدمة. وبينما تسترد قواعد البيانات العلائقية وNoSQL جميع النتائج، تسترد هذه المحركات أفضل النتائج.
تنقسم تطبيقات محركات البحث إلى ثلاثة فئات كبيرة، البحث في المستند الذي يعمل بصفة أساسية على النص الحر غير المهيكل، وبحث التجارة الإلكترونية الذي يعمل على مزيج من البيانات المهيكلة وغير المهيكلة وتفريغ الاستعلام الذي يعمل بصفة أساسية على البيانات المهيكلة.
هل يعمل البحث في المستندات مع البيانات التعريفية؟
في البحث في المستندات، يمكنك البحث في المستند الرئيسي الذي يمكن أن يكون صغيرًا مثل فقرة وكبير آلاف الصفحات. تشمل المستندات أشكالاً متنوعة من الحقول الأخرى بما في ذلك، حقول النصوص غير المهيكلة (العنوان، والملخص)، والحقول شبه المهيكلة (المؤلف)، والحقول المهيكلة (تاريخ النشر، ومجموعة الإنشاء، والفئة) - البيانات التعريفية. يتعامل محرك البحث مع مزيج من النصوص والبيانات التعريفية في استعلامات المستخدم.
ما التحديات الرئيسية للبحث في المستندات؟
تنقسم التحديات الرئيسية للبحث في المستندات إلى مجالين - إعداد البيانات واستيعابها ومدى الصلة بالبحث.
في حالات استخدام البحث عن المستندات، ينشأ نص المستندات (المجموعة) من محتوى أنشأه المستخدم أو غيره من المحتويات غير المختارة. يحتوي هذا المحتوى عادةً على أخطاء إملائية أو أخطاء أخرى وتكرارات وبيانات غير منطقية. قبل تحميل هذه البيانات في محرك بحث، تحتاج إلى تنظيم البيانات وتنظيفها وتطبيعها. بعد إعداد البيانات، تحتاج إلى تحميل تلك البيانات في المحرك (عن طريق استدعاء واجهات برمجة التطبيقات (APIs) المتعلقة بالاستيعاب). أخيرًا، تحتاج إلى عملية لتحديث المستندات عند تغييرها.
تتمثل القيمة الأساسية للبحث في المستندات في استرداد المستندات ذات الصلة باستعلام المستخدم - مدى ملاءمة البحث. وفي أثناء الاسترجاع، يقوم محرك البحث بتسجيل جميع المستندات المطابقة وفرزها عبر مقياس إحصائي (BM25). يستخدم BM25 تفرد مصطلحات البحث مع عددها في المستندات المطابقة. وكلما زاد عدد مرات تطابق الاستعلام مع المصطلحات الفريدة، زادت نقاطه. يجب عليك ضبط وظيفة التسجيل لمجموعة البيانات الخاصة بك؛ تساعدك تقنيات تعلّم الآلة (ML) على تحسين ترتيبك. لا يكون البحث جيد إلا بقدر أهمية المستندات التي يسترجعها، وأنت تريد الأفضل.
ما هي حالات استخدام البحث الأخرى؟
البحث في مواقع التجارة الإلكترونية
يمكنك الانتقال إلى محرّك «التجارة الإلكترونية» للعثور على المنتجات وشرائها من كتالوج المنتجات المتاحة. تحتوي هذه المنتجات على العديد من حقول البيانات التعريفية - الحجم، واللون، والعلامة التجارية، وغيرها – إضافة إلى حقول أطول، مثل العنوان، ووصف المنتج، والمراجعات. تتلخص المهمة الأساسية للمحرك في استرداد النتائج الأكثر صلة، والتي توفر الإيرادات. يستخدم مصممو المواقع العديد من الأدوات لبناء وظيفة ذات صلة جيدة - بداية من القيم الرقمية، والمضمنة حتى نماذج ML بناءً على سلوك المستخدم.
لتحسين تجربة المستخدم النهائي، تُضيف مواقع «التجارة الإلكترونية» بحثًا متعدد الوجه بشكلٍ متكرر. يُوفر المحرّك عددًا مُجمّعًا للقيم في الحقول المختلفة (الحجم واللون وما إلى ذلك) - وتوفر واجهة المستخدم للمستخدم قائمة قابلة للنقر عليها تستخدم لتضييق نطاق النتائج.
تعتمد بعض أنواع البحث في التجارة الإلكترونية اعتمادًا كبيرًا على التخصيص والتوصيات. في حال بحث أحد المتسوقين عن "فساتين"، يجب أن يجد محرك البحث الفساتين التي قد تكون محل اهتمام العميل، على الرغم من أن الاستعلام نفسه يُعتبر استعلامًا مفتوحًا. تساعد مقاييس التشابه مثل، خوارزمية الجار القريب من العدد ك (k-NN) في هذه النقطة.
بحث مجموعة البيانات المنسقة
ابحث عن مجموعة بيانات مؤسسة، مثل مستودع مستندات المؤسسة (بيانات التجارب السريرية، والمذكرات القانونية، والعقارات، وغيرها). تحتوي محركات البحث على قواعد لغوية وميزات أخرى خاصة باللغة تساعدها على تقسيم مجموعات كبيرة من النصوص إلى مصطلحات مكونات (كلمات من حقل أو مجموعة كبيرة من النصوص) بغرض المطابقة. تتيح لغة الاستعلام الغنية إمكانية البحث في هذه مجموعات نصية كبيرة عن مجموعات من المصطلحات ، مثل "فستان طويل بلا أكمام". غير أن المحرك لا يسترد كل شيء يتطابق: ولكنه يستخدم درجة صلة لترتيب المستندات، وفرزها، وعدم إرجاع سوى أفضل التطابقات.
تفريغ الاستعلام
تحتوي محركات البحث على هياكل بيانات متخصصة لتسهيل البحث بأحجام كبيرة وزمن تنقل منخفض. ومن أهم هذه الهياكل الفهرس المعكوس، والذي يقوم بتعيين المصطلحات الفردية إلى قائمة المستندات التي تحتوي على تلك المصطلحات. وبسبب هياكل البيانات هذه، تتفوّق محركات البحث على قواعد البيانات العلائقية في معالجة الاستعلام. تظهر المفاضلة في أنّ محرّكات البحث غير علائقية. ومن الشائع رؤية قاعدة بيانات علائقية ترادفية ومحرك بحث. يمكنك استخدام قاعدة البيانات العلائقية لعرض بيانات التطبيق، ومحرك بحث لتوفير وقت استجابة منخفض، وبحث ذي صلة في تلك البيانات.
من يبني البحث في المستندات؟
يتطلب بناء تجربة بحث غنية وممتعة العديد من الوظائف الوظيفية. يقوم المطورون بدمج حل بحث وإنشاء واجهة بحث وفهم كيفية هيكلة البيانات للحصول على أفضل نتائج البحث. يقدم مديرو المنتجات متطلبات بنية البيانات الوصفية وتجارب مستخدم واجهة البحث. يقوم علماء البيانات برعاية بيانات المصدر، بالإضافة إلى تتبع سلوك المستخدم والعمل معه. يضع المسؤولون التنفيذيون مؤشرات الأداء الرئيسية للأعمال التي توجه فرق الإنتاج والتطوير في تحقيق أهداف العمل للمحرك.
ما مستقبل البحث في المستندات؟
تم تحسين محركات البحث لتتطابق النتائج مع عبارات البحث. البحث عن "كنبة 8 أقدام" يجب أن يجلب لك نتائج أرائك 8 أقدام، ويتم ذلك من خلال مطابقة "8" و"قدم" و"كنبة". هذا هو البحث عن الكلمات الرئيسية. في كثير من الحالات، لا يعرف الباحثون المصطلحات الدقيقة التي يبحثون عنها ويريدون البحث حسب المعنى. هذا بحث دلالي، وهو في طليعة تقنيات البحث والتعلم الآلي. باستخدام البحث الدلالي، يمكنك استخدام استعلامات مثل "مكان مريح للجلوس بجوار النار" لاسترداد عناصر مثل أريكة يبلغ ارتفاعها 8 أقدام.
يتطلب البحث الدلالي تقنيات ML. يجب إنشاء مساحة متجهة من العناصر والاستعلامات، ثم استخدام حسابات تشابه المتجهات للعثور على العناصر القريبة في تلك المساحة. باستخدام البحث المتجه، لا يحتاج المستند إلى أي كلمات أو مرادفات مشتركة مع طلب البحث ليكون ذا صلة. على سبيل المثال ، يمكن أن يتطابق البحث عن "صيانة الدراجات" مع مستند "تزييت ديرايلور"، لأن خوارزمية ML تعلم أن "تزييت ديرايلور"؛ غالبًا ما يظهر بالقرب من مناقشات صيانة الدراجات.
كيف يمكنك تحسين نتائج بحثك؟
مفتاح البحث الفعّال في المستندات ومواقع التجارة الإلكترونية هو الملاءمة - هل تلبي نتائج البحث احتياجات الباحث؟ تحاول محركات البحث عرض أفضل النتائج في المقدمة باستخدام مجموعة متنوعة من التقنيات. وهذا ما يُطلق عليه ترتيب مدى الصلة. تعمل قواعد البيانات على إرجاع كل ما يُطابق، ويتم تحسين محركات البحث لتسجيل العناصر ذات الصلة.
- يمكن أن يتوسّع بحثك ليشمل عدة حقول مع إمكانية الترجيح التفاضلي. على سبيل المثال، إذا كنت تبحث في قاعدة بيانات أفلام، فقد تود توسيع لتضم حقول مثل، العنوان، والمخرج، والممثل، وإعطاء عنوان يُطابق ترجيح أكبر مما يُطابقه الممثل.
- ضع في اعتبارك تعديل نتائج البحث لتحديثها. أضف حقل تاريخ الإصدار إلى الفهرس الخاص بك ووظيفة التضاؤل الأسي بناءً على ذلك التاريخ إلى وظيفة الدرجة الخاصة بك.
- ضع في اعتبارك إضافة أوجه أو عوامل تصفية لنتائج البحث لمساعدة المستخدمين على التعمق في عناصر محددة. تدعم العديد من أنظمة البحث في المستندات واجهة البيانات التعريفية - والتي يتم تقديمها عادةً على شكل فئات على الجانب الأيسر من صفحة نتائج البحث.
- ضع في اعتبارك إضافة المرادفات. يمكن أن تساعد المرادفات المستخدمين النهائيين في العثور على النتائج التي يبحثون عنها. في الملابس، تي شيرت هو تي شيرت أو تيشيرت. يجب أن يجد المستخدمون لديك النتائج نفسها سواء كانوا يبحثون عن "تي" أو "تيشيرت". تعمل إضافة المرادفات على عرض هذه النتائج.
كيف يستخدم العملاء البحث في المستندات؟
يشمل البحث في المستندات العديد من التطبيقات المختلفة.
- تستخدم مواقع التجارة الإلكترونية البحث في المستندات لاسترداد المنتجات التي يرغب المستخدمون في شرائها.
- تستخدم مواقع الصور البحث في المستندات للعثور على الصور بناءً على البيانات التعريفية مثل العنوان والوصف، أو حتى بناءً على اتجاهات الصور المتطابقة.
- يستخدم المستخدمون القانونيون البحث في المستندات للاطّلاع على السوابق القضائية ذات الصلة.
- يستخدم الأطباء البحث في المستندات للعثور على أدوية لحالات مرضاهم.
- تستخدم حلول إدارة علاقات العملاء (CRM) البحث في المستندات لاسترداد الملاحظات، والتفاعلات، والعملاء لاستهدافهم.
متى احتجت إلى العثور على شيء ما، استخدم محرك البحث!
ما هي عروض AWS للبحث عن المستندات؟
- Amazon OpenSearch Service هي مجموعة أدوات للمطورين الذين يرغبون في تطوير حل للبحث.
- Amazon Kendra هو حل جاهز للبحث الذكي.
- Amazon CloudSearch هي حل للبحث المُبسّط.