Cơ sở tài liệu véc-tơ là gì? Cơ sở dữ liệu véc-tơ được sử dụng như thế nào? lý do cơ sở tài liệu véc-tơ lại quan tiền trọng? Đối tượng nào thực hiện cơ sở dữ liệu véc-tơ? Cơ sở tài liệu véc-tơ đưa về những ích lợi gì? AWS có thể hỗ trợ các yêu ước về cơ sở dữ liệu véc-tơ của công ty như thế nào? Những thách thức của cơ sở dữ liệu véc-tơ là gì?

Thông tin trường thọ dưới những hình thức. Một số trong những thông tin không có cấu trúc – như tư liệu văn bản, ngôn từ đa phương tiện phong phú và đa dạng và âm thanh – trong khi một vài thông tin có cấu trúc – như bạn dạng ghi ứng dụng, bảng biểu và đồ thị. Những thay đổi trong trí tuệ nhân tạo và sản phẩm học (AI/ML) đến phép bọn họ tạo ra quy mô nhúng – một loại mô hình ML. Các phần nhúng mã hóa tất cả các loại dữ liệu thành véc-tơ để nỗ lực bắt ý nghĩa và ngữ cảnh của tài liệu. Điều này mang lại phép họ tìm tài liệu tương tự bằng cách tìm kiếm những điểm dữ liệu lân cận. Phương thức tìm tìm véc-tơ sở hữu lại cho chính mình trải nghiệm rất dị như chụp ảnh bằng smartphone thông minh cùng tìm kiếm hình hình ảnh tương tự.

Bạn đang xem: Vector hỗ trợ là gì

Cơ sở dữ liệu véc-tơ cung ứng khả năng tàng trữ và truy vấn xuất véc-tơ bên dưới dạng điểm nhiều chiều. Cơ sở tài liệu véc-tơ thêm nhiều tính năng bổ sung giúp tra cứu kết quả và gấp rút các điểm lân cận gần tốt nhất trong không khí N chiều. Thông thường, cơ sở dữ liệu véc-tơ được cung cấp bởi những chỉ mục sát bên k gần nhất (k-NN) cùng được chế tạo bằng các thuật toán như Hierarchical Navigable Small World (HNSW) cùng Inverted file Index (IVF). Cơ sở dữ liệu véc-tơ cung cấp nhiều tính năng bổ sung như thống trị dữ liệu, kỹ năng chịu lỗi cao, chính xác và điều hành và kiểm soát quyền truy vấn và hiện tượng truy vấn.


Cơ sở dữ liệu véc-tơ hay được áp dụng để cung ứng cho các trường hợp thực hiện tìm kiếm theo véc-tơ như search kiếm hình hình ảnh trực quan, ngữ nghĩa và đa phương thức. Ngay gần đây, chúng được kết hợp với các mô hình văn phiên bản của trí tuệ tự tạo (AI) chế tác sinh để tạo thành các tác tử thông minh cung cấp trải nghiệm tìm kiếm kiếm gồm đối thoại. Bọn chúng cũng hoàn toàn có thể ngăn các quy mô AI sản xuất sinh khỏi bị nhầm lẫn, vì việc nhầm lẫn rất có thể khiến chatbot hỗ trợ các bình luận phi thực tế nhưng xứng đáng tin.

Quá trình phân phát triển bắt đầu bằng việc xây dựng một quy mô nhúng được thiết kế với để mã hóa một tập ngữ liệu, ví như hình ảnh sản phẩm, thành những véc-tơ. Quy trình nhập dữ liệu này còn được gọi là nạp dữ liệu vào đối tượng. Nhà cách tân và phát triển ứng dụng giờ đây có thể sử dụng cơ sở tài liệu để kiếm tìm kiếm các sản phẩm tương tự bằng cách mã hóa một hình hình ảnh sản phẩm và thực hiện véc-tơ để truy vấn những hình hình ảnh tương tự.

Trong tế bào hình, những chỉ mục cạnh bên k gần nhất (k-NN) cung cấp khả năng truy tìm xuất véc-tơ công dụng và áp dụng hàm khoảng cách như cosine nhằm xếp hạng hiệu quả theo mức độ tương đồng.


Các công ty phát triển rất có thể lập chỉ mục các véc-tơ được sản xuất bằng các phần nhúng vào cơ sở dữ liệu véc-tơ. Điều này chất nhận được họ tìm những tài sản tương tự bằng phương pháp truy vấn những véc-tơ lạm cận.

Cơ sở dữ liệu véc-tơ hỗ trợ một phương pháp để quản lý các quy mô nhúng. Phát triển ứng dụng năng suất hơn với những tính năng cơ sở dữ liệu như làm chủ tài nguyên, kiểm soát và điều hành bảo mật, tài năng điều chỉnh quy mô, khả năng chịu lỗi cao với truy xuất thông tin tác dụng thông qua những ngôn ngữ truy vấn vấn phức tạp.

Cơ sở tài liệu véc-tơ ở đầu cuối sẽ cung cấp các nhà cải tiến và phát triển tạo ra trải nghiệm áp dụng độc đáo. Ví dụ: người dùng của chúng ta cũng có thể chụp ảnh bằng điện thoại thông minh nhằm tìm kiếm những hình ảnh tương tự.

Các công ty phát triển rất có thể sử dụng các loại quy mô máy học khác nhằm trích xuất khôn cùng dữ liệu tự động hóa từ những nội dung như hình hình ảnh và tài liệu được quét. Họ rất có thể lập chỉ mục siêu dữ liệu cùng với các véc-tơ để được cho phép tìm kiếm phối hợp bằng cả từ khóa và véc-tơ. Họ cũng hoàn toàn có thể hợp nhất kỹ năng và kiến thức ngữ nghĩa vào xếp hạng dựa trên mức độ để nâng cao kết quả tìm kiếm kiếm.

Những thay đổi trong trí tuệ nhân tạo (AI) sinh sản sinh đã cho ra đời các loại mô hình mới như Chat
GPT rất có thể tạo văn bản và làm chủ các cuộc hội thoại tinh vi với con người. Một số quy mô có thể chuyển động trên các phương thức; ví dụ: một số trong những mô hình có thể chấp nhận được người sử dụng mô tả cảnh sắc và tạo ra một hình hình ảnh phù phù hợp với mô tả đó.

Tuy nhiên, các mô hình tạo sinh dễ bị nhầm lẫn, có thể khiến chatbot tin báo sai lệch cho những người dùng chẳng hạn.Cơ sở dữ liệu véc-tơ gồm thể bổ sung cho các quy mô AI sản xuất sinh. Cơ sở dữ liệu véc-tơ hoàn toàn có thể cung cấp một cửa hàng kiến thức phía bên ngoài cho các chatbot AI tạo thành sinh và giúp bảo vệ rằng các chatbot đó tin báo đáng tin cậy.


Cơ sở dữ liệu véc-tơ giành cho các nhà phát triển muốn tạo ra trải nghiệm dựa trên tìm tìm theo véc-tơ. Nhà cải tiến và phát triển ứng dụng rất có thể sử dụng các quy mô nguồn mở, những công cố gắng máy học tập (ML) auto và các dịch vụ mô hình cơ bản để tạo nên các phần nhúng cùng nạp cơ sở tài liệu véc-tơ vào đối tượng. Điều này yên cầu chuyên môn về ML tối thiểu.

Một nhóm những nhà khoa học tài liệu và kỹ sư dữ liệu có thể xây dựng những phần nhúng được điều chỉnh chuyên nghiệp hóa và quản lý chúng trải qua cơ sở dữ liệu véc-tơ. Bài toán này hoàn toàn có thể giúp bọn họ cung cấp giải pháp trí tuệ nhân tạo (AI) nhanh hơn.

Các team ngũ vận hành hưởng lợi từ việc thống trị các chiến thuật dưới dạng khối lượng quá trình cơ sở tài liệu quen thuộc. Họ có thể sử dụng các công cầm và cẩm nang hiện nay có.


Cơ sở dữ liệu véc-tơ có thể chấp nhận được các bên phát triển thay đổi và tạo ra những trải nghiệm độc đáo với sự hỗ trợ của kỹ năng tìm kiếm theo véc-tơ. Chúng rất có thể đẩy nhanh tốc độ trở nên tân tiến ứng dụng trí tuệ tự tạo (AI) và đơn giản dễ dàng hóa vượt trình vận hành khối lượng các bước ứng dụng dựa vào AI.

Cơ sở tài liệu véc-tơ cung cấp một chiến thuật thay nỗ lực cho câu hỏi xây dựng trên các chỉ mục sát bên k gần nhất (k-NN) trống. Các loại chỉ mục đó yên cầu rất nhiều chuyên môn và kỹ thuật bổ sung cập nhật để sử dụng, điều chỉnh và vận hành.

Một cơ sở tài liệu véc-tơ xuất sắc sẽ cung cấp cho những ứng dụng một nền tảng trải qua các tài năng như làm chủ dữ liệu, tài năng chịu lỗi cao, những tính năng bảo mật đặc biệt quan trọng và mức sử dụng truy vấn. Các tính năng này được cho phép người dùng vận hành khối lượng công việc để đơn giản hóa việc điều chỉnh quy mô, bảo trì khả năng kiểm soát và điều chỉnh quy mô linh hoạt và cung ứng các yêu mong bảo mật.

Các hào kiệt như nguyên lý truy vấn với SDK giúp đơn giản dễ dàng hóa việc phát triển ứng dụng. Bọn chúng cũng có thể chấp nhận được các nhà cải tiến và phát triển thực hiện những truy vấn cải thiện hơn (như tìm kiếm cùng lọc) bên trên siêu dữ liệu trong một lượt search kiếm k-NN. Bọn chúng cũng kèm theo tùy lựa chọn sử dụng quy mô tính điểm nút độ liên quan kết hợp, trong những số ấy các quy mô tần suất thuật ngữ truyền thống cuội nguồn như BM25 được kết hợp với điểm số véc-tơ để tăng cường quá trình truy vấn xuất thông tin.

Xem thêm: Bí kíp chọn việc làm thêm sinh viên năm 3 có nên đi thực tập ?


Amazon website Services (AWS) cung cấp nhiều dịch vụ cho những yêu cầu về cơ sở tài liệu véc-tơ của bạn:

Bắt đầu thực hiện cơ sở dữ liệu véc-tơ bên trên AWS bằng phương pháp tạo tài khoản ngay hôm nay.


Cơ sở dữ liệu véc-tơ gặp phải nhiều thách thức tương tự nhưng mà các công nghệ cơ sở dữ liệu khác đề nghị đối mặt. Cơ sở tài liệu véc-tơ cần cố gắng không chấm dứt để nâng cao khả năng kiểm soát và điều chỉnh quy mô, độ đúng đắn ước lượng, tính năng độ trễ cùng tính tởm tế.

Là một technology tương đối non trẻ, các cơ sở tài liệu véc-tơ cần phải hoàn thiện các năng lực cơ sở tài liệu cốt lõi như bảo mật, năng lực phục hồi, hỗ trợ vận hành và phong phú và đa dạng hóa hỗ trợ cân nặng công việc. Điều này rất đặc trưng khi các ứng dụng trí tuệ tự tạo (AI) triển khai xong và yêu thương cầu nhiều hơn thế nữa là chỉ search kiếm theo véc-tơ.

dài quá đọc không nổi

Hỗ trợ Vector Machine (SVM) là 1 trong thuật toán dễ dàng và đơn giản khác vận động tương đối giỏi với giá thành tính toán không nhiều hơn. SVM rất có thể được sử dụng cho tất cả các việc hồi quy với phân một số loại nhưng nó được sử dụng rộng thoải mái để phân loại. Bố nhân được thực hiện nhiều nhất là: Nhân con đường tính, Nhân đa thức, Hàm cửa hàng hướng trung ương (RBF) cùng Hồi quy vectơ cung ứng (SVR) SVR có thể xử lý dữ liệu phi tuyến tính cao bằng cách sử dụng hàm nhân. Hàm ánh xạ ngầm các đối tượng địa lý mang lại các form size cao hơn tức là không gian đối tượng người tiêu dùng địa lý cao hơn.

Companies Mentioned


*

*

*

*

Hỗ trợ Vector Machine là một thuật toán đơn giản khác hoạt động tương đối giỏi với giá cả tính toán ít hơn. Vào hồi quy, SVM hoạt động bằng phương pháp tìm một cực kỳ phẳng trong không gian N chiều (N số đối tượng) tương xứng với tài liệu đa chiều trong khi xem xét một lề. Vào phân loại, cùng một vô cùng phẳng được thống kê giám sát nhưng để phân loại cụ thể các điểm tài liệu một đợt nữa trong khi chứng kiến tận mắt xét một lề. Gồm thể có không ít siêu vật dụng bay hoàn toàn có thể được lựa chọn. Mặc dù nhiên, kim chỉ nam là tìm vô cùng phẳng có lề tối đa, nghĩa là khoảng cách tối đa giữa những lớp mục tiêu.

SVM có thể được sử dụng cho tất cả các việc hồi quy và phân một số loại nhưng nó được sử dụng thoáng rộng để phân loại.

*

Hãy lý giải một số thuật ngữ trước khi họ đi sâu hơn.

Kernel là hàm được thực hiện để biến đổi dữ liệu thành trang bị nguyên cao hơn.

Siêu phẳng là đường chia cách giữa các lớp (đối với các bài toán phân loại). Đối cùng với hồi quy, chính là đường mà chúng tôi cân xứng với dữ liệu của bản thân mình để dự đoán những giá trị tác dụng tiếp tục.

Các mặt đường ranh giới là các đường tạo thành vùng bao gồm lỗi mà chúng ta đã đề cập trước đó. Bọn chúng là hai đường bảo phủ siêu phẳng thay mặt đại diện cho lề.

Các vectơ hỗ trợ là các điểm dữ liệu gần độc nhất với những đường ma lanh giới này.

Kernel

cửa hàng chúng tôi đã nói rằng phân tử nhân là tính năng để đổi khác dữ liệu của shop chúng tôi thành các form size cao hơn. Vậy điều này hữu ích cho họ như vắt nào?

Đôi khi dữ liệu được phân phối theo cách mà ko thể có được sự phù hợp chính xác bằng phương pháp sử dụng một đường thẳng (dấu phân cách). SVR rất có thể xử lý tài liệu phi tuyến tính cao bằng phương pháp sử dụng hàm nhân. Hàm ánh xạ ngầm các đối tượng người dùng địa lý đến các kích cỡ cao hơn tức là không gian đối tượng người tiêu dùng địa lý cao hơn. Điều này được cho phép chúng tôi diễn tả nó cũng bằng cách sử dụng rất phẳng đường tính.

*
*

Ba nhân được sử dụng nhiều duy nhất là:

phân tử nhân đường tính Nhân nhiều thức: chức năng cơ sở hướng trung ương (RBF) - xuất sắc để xử trí dữ liệu ông chồng chéo

hỗ trợ hồi quy vectơ (SVR)

tương tự như các quy mô hồi quy con đường tính, SVR cũng cố gắng tìm một mặt đường cong phù hợp nhất với tập dữ liệu. Ghi nhớ phương trình của cửa hàng chúng tôi cho tập tài liệu với một bản lĩnh từ hồi quy tuyến tính:

y = w1x1 + c

chu đáo SVR cho một tập dữ liệu cũng có thể có một tính năng, phương trình trông tựa như nhưng có xem xét lỗi.

−e≤y− (w1x1 + c) ≤e

nhìn vào phương trình, ví dụ là chỉ đầy đủ điểm nằm xung quanh vùng lỗi e mới được xem như xét trong thống kê giám sát chi phí.

SVR tất yếu cũng hoàn toàn có thể được sử dụng cho những bộ dữ liệu tinh vi với nhiều khả năng hơn bằng phương pháp sử dụng những thuật ngữ đặc trưng về độ cao hơn tương tự như trong hồi quy đa thức.

vô cùng phẳng là cân xứng nhất với tài liệu khi nó trùng cùng với số điểm buổi tối đa gồm thể. Chúng ta xác định các đường biên (giá trị của e là khoảng cách từ khôn cùng phẳng) để các điểm gần khôn cùng phẳng độc nhất nằm trong các đường biên.

Hãy ghi nhớ vì lề (giữa những đường oắt con giới) sẽ được dung sai, nó sẽ không còn được tính là không đúng số. Tôi đoán bạn đã có thể hình dung thuật ngữ này sẽ chất nhận được chúng tôi kiểm soát và điều chỉnh mức độ phức hợp của quy mô của chúng tôi như vậy nào (underfitting / overfitting).

import numpy as np from sklearn.svm import SVR import matplotlib.pyplot as plt np.random.seed(5) X = np.sort(5 * np.random.rand(40, 1), axis=0) T = np.linspace(0, 5, 5)<:, np.newaxis> y = np.sin(X).ravel() # địa chỉ cửa hàng noise lớn targets y<::5> += 1 * (0.5 - np.random.rand(8)) # Fit regression model SVR_rbf = SVR(kernel='rbf' ) SVR_lin = SVR(kernel='linear') SVR_poly = SVR(kernel='poly') y_rbf = SVR_rbf.fit(X, y).predict(X) y_lin = SVR_lin.fit(X, y).predict(X) y_poly = SVR_poly.fit(X, y).predict(X) # look at the results plt.scatter(X, y, c='k', label='data') plt.plot(X, y_rbf, c='b', label='RBF') plt.plot(X, y_lin, c='r',label='Linear') plt.plot(X, y_poly, c='g',label='Polynomial') plt.xlabel('data') plt.ylabel('outcome') plt.title('Support Vector Regression') plt.legend() plt.show()

*

cung cấp máy vectơ để phân loại

họ đã biết cách buổi giao lưu của thuật toán “Máy vectơ hỗ trợ (SVM)” để hồi quy. Đối với phân loại, ý tưởng phát minh thực sự gần giống nhau. Trong thực tế, SVM đa phần được sử dụng cho những bài toán phân loại. Tôi tin rằng bạn đã sở hữu thể tưởng tượng tại sao…

Đối cùng với hồi quy, công ty chúng tôi đã nhắc rằng SVM nỗ lực tìm một đường cong tương xứng nhất với tập dữ liệu và tiếp đến đưa ra dự kiến cho một điểm mới bằng cách sử dụng đường cong đó. Chà, có thể dễ dàng thực hiện cùng một đường cong để phân loại dữ liệu thành nhị lớp khác nhau. Đối với không khí đa chiều bao gồm n chiều (nghĩa là tài liệu có n số sệt trưng), tế bào hình tương xứng với một khôn xiết mặt phẳng (còn điện thoại tư vấn là tinh ranh giới quyết định) phân biệt cực tốt hai lớp. Ghi nhớ hình ảnh từ phần hồi quy nơi công ty chúng tôi đã phân tích và lý giải về hạt nhân…

*

Lề là khoảng cách giữa nhì điểm sớm nhất từ từng lớp, là khoảng cách từ siêu phẳng đến các điểm gần nhất (vectơ hỗ trợ). Khôn cùng phẳng cân xứng nhất cùng với dữ liệu, tức là phân tách bóc hai lớp tốt nhất, là hết sức phẳng gồm biên độ lớn nhất có thể. Do đó, thuật toán SVM kiếm tìm kiếm khôn xiết phẳng cùng với lề lớn số 1 (khoảng giải pháp đến các điểm ngay gần nhất).

tương đương như chúng ta đã đề cập trong phần hồi quy, một số tập tài liệu không phù hợp để được phân nhiều loại theo hết sức phẳng con đường tính… vào trường hợp này, một lượt nữa, “Kernel trick” lại giải cứu họ ánh xạ ngầm dữ liệu đến các form size cao hơn, vì đó rất có thể dữ liệu được phân loại bởi siêu phẳng tuyến đường tính. Vì họ đã bàn bạc về các loại Kernel và phương pháp nó hoạt động, tôi sẽ tiếp tục với một ví dụ triển khai…

Hãy thường xuyên sử dụng bộ tài liệu ung thư từ thư viện học scikit:

from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split X, y = load_breast_cancer(return_X_y = True) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) X_sub = X<:, 0:2> # create a mesh lớn plot in x_min, x_max = X_sub<:, 0>.min() - 1, X_sub<:, 0>.max() + 1 y_min, y_max = X_sub<:, 1>.min() - 1, X_sub<:, 1>.max() + 1 h = (x_max / x_min)/100 xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) #import the SVM mã sản phẩm from sklearn import svm C = 1.0 # SVM regularization parameter svc = svm.SVC(kernel='linear').fit(X_sub, y) #play with this, change kernel to lớn rbf plt.subplot(1, 1, 1) Z = svc.predict(np.c_) Z = Z.reshape(xx.shape) plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8) plt.scatter(X_sub<:, 0>, X_sub<:, 1>, c=y, cmap=plt.cm.Paired) plt.scatter(X_sub, X_sub,c='k', cmap=plt.cm.Paired) plt.xlabel('Sepal length') plt.ylabel('Sepal width') plt.xlim(xx.min(), xx.max()) plt.title('SVC with linear kernel') plt.show()

*

#Create & instance of the classifier model with a linear kernel lsvm = svm.SVC(kernel="linear") #fit the model to our train split from previous example lsvm.fit(X_train,y_train) #Make predictions using the chạy thử split so we can evaluate its performance y_pred = lsvm.predict(X_test)

Hãy đối chiếu hiệu suất của tế bào hình bằng phương pháp so sánh các dự đoán với cái giá trị thực từ bộ thử nghiệm…

from sklearn import metrics print("Accuracy:",metrics.accuracy_score(y_test, y_pred)) print("Precision:",metrics.precision_score(y_test, y_pred)) print("Recall:",metrics.recall_score(y_test, y_pred))

*

shop chúng tôi đã có thể đạt được độ đúng chuẩn 95,6%, điều này rất tốt. Hãy đối chiếu điểm đào tạo và huấn luyện và bài kiểm tra để khám nghiệm xem tất cả quá trang bị…

print("training set score: %f" % lsvm.score(X_train, y_train)) print("test mix score: %f" % lsvm.score(X_test, y_test))

*

Điểm rèn luyện dường như nhỉnh hơn điểm thi. Nói cách khác mô hình này đang rất được trang bị vượt mức mặc dù không nhiều.

Nếu bạn muốn điều này, hãy quan sát và theo dõi tôi để biết thêm những hướng dẫn và khóa huấn luyện máy học tập miễn phí!