Phương pháp xây dựng ngân hàng dữ liệu trong từ điển bách khoa

02/12/2017
Đỗ Thị Lượng – ThS. Ngữ văn, Viện Từ điển học và Bách khoa thư Việt Nam; Email: dobinhluong@yahoo.com.

1. Mở đầu

Cơ sở dữ liệu là gì?

Cơ sở dữ liệu là một bộ sưu tập rất lớn về các loại dữ liệu tác nghiệp, bao gồm các loại dữ liệu âm thanh, tiếng nói, chữ viết, văn bản, đồ hoạ, hình ảnh tĩnh hay hình ảnhđộng... được mã hoá dưới dạng các chuỗi bit và được lưu trữ dưới dạng file dữ liệu trong các bộ nhớ của máy tính. Cấu trúc lưu trữ dữ liệu tuân theo các quy tắc dựa trên lýthuyết toán học. Cơ sở dữ liệu phản ánh trung thực thế giới dữ liệu hiện thực khách quan.

Cơ sở dữ liệu là tài nguyên thông tin(CSDL) là tài nguyên thông tin chung cho nhiều người cùng sử dụng. Bất kỳ người sử dụng nào trên mạng máy tính, tại các thiết bịđầu cuối, về nguyên tắc có quyền truy nhập khai thác toàn bộ hay một phần dữ liệu theo chế độ trực tuyến hay tương tác mà không phụ thuộc vào vị trí địa lý của người sử dụng với các tài nguyên đó.

Tổ chức lưu trữ dữ liệu theo lý thuyết cơ sở dữ liệu có những ưu điểm:

Giảm bớt dư thừa dữ liệu trong lưu trữTrong các ứng dụng lập trình truyền thống, phương pháp tổ chức lưu trữ dữ liệu vừa tốn kém, lãng phí bộ nhớ và các thiết bị lưutrữ, vừa dư thừa thông tin lưu trữ. Nhiều chương trình ứng dụng khác nhau cùng xử lý trên các dữ liệu như nhau, dẫn đến sự dư thừa đáng kể về dữ liệu.

Ngân hàng dữ liệu là gì?

Ngân hàng dữ liệu (còn gọi là ngân hàng thông tin; ngân hàng dữ kiện), là cơ quan (tổ chức, bộ phận) tập hợp (ghi nhận), lưu trữ, phân loại, hệ thống các số liệu, tư liệu, dữ kiện, thông tin theo những chuyên đề (chương trình) nghiên cứu nhất định, dưới dạng các ấn phẩm, phim ảnh, băng từ, đĩa từ có thể cung cấp (trao đổi, mua bán) cho các cơ quan, khi cần sử dụng (xử lý) để thiết lập các đề tài (chương trình) mới.

Ngân hàng dữ liệu đồng nghĩa với cơ sở dữ liệu, nhưng thường nói về những hệ thống thông tin lớn bao trùm lên một lĩnh vực hoạt động nào đó và phục vụ một số lượng lớn người sử dụng trong việc tra cứu, tìm kiếm và khai thác thông qua các mạng viễn tin quốc gia hay quốc tế.

Tầm quan trọng của ngân hàng dữ liệu đối với việc biên soạn từ điển bách khoa: Trên cơ sở ngân hàng dữ liệu về ngôn ngữ, bằng phương pháp thống kê, có thể xác định chính xác được tần số sử dụng của từ (bao gồm cả thuật ngữ) và cụm từ, thành ngữ và câu. Theo thời gian, dữ liệu được xác nhận là nguồn cung cấp thông tin phong phú và có thể sử dụng trong rất nhiều lĩnh vực nghiên cứu khoa học và tìm hiểu thông tin xã hội. Trên cơ sở dữ liệu và với việc sử dụng máy tính, có thể xây dựng các bộ từ điển lớn như từ điển bách khoa và bách khoa thư, giúp người sử dụng nhanh chóng cập nhật được thông tin cần tìm theo thời gian và theo sự phát triển của xã hội.

Trong ngôn ngữ học hiện đại, từ “khối liệu” lần đầu tiên được sử dụng như một thuật ngữ khoa học. Thuật ngữ này được dùng trong tập hợp các văn bản bằng các ngôn ngữ khác nhau dưới dạng văn bản điện tử (file của máy tính). Khối liệu là công cụ để xây dựng, điều chỉnh và bổ sung các hệ thống tự động hoá khác nhau như dịch tự động, nhận dạng lời nói, tìm kiếm thông tin, ví dụ tìm kiếm trong khối liệu các dữ liệu theo một từ bất kỳ có thể tạo ra được cả một danh mục liệt kê tất cả các trường hợp có sử dụng từ đó với đầy đủ thông tin về nguồn gốc dữ liệu. Nhờ khối liệu có thể trong vài giây biết được tần số sử dụng của các loại từ và cụm từ cần nghiên cứu, theo dõi thường xuyên điều chỉnh được tần số xuất hiện của chúng trên các phương tiện khoa học và đại chúng. Khối liệu còn được sử dụng làm cơ sở cho việc chuẩn bị biên soạn các loại từ điển hiện đại một cách nhanh chóng và hiệu quả.

Vậy mục đích của bài viết này tìm ra được phương pháp xây dựng ngân hàng dữ liệu trong từ điển bách khoa, vì trước đây do hạn chế về thời gian và kinh phí nên việc làm tư liệu phục vụ công tác biên soạn luôn mang tính tạm bợ, cần đến đâu thì làm đến đó. Thường là người biên soạn tự làm, nhiều nguời biên soạn chưa nắm vững được những vấn đề về ngôn ngữ học như ngữ nghĩa, đồng âm… Như vậy, để phục vụ cho việc biên soạn từ điển bách khoa cần có một kho dữ liệu lớn, thường xuyên cập nhật. Một cuốn từ điển có nguồn tư liệu phong phú, tin cậy mới phản ánh được hết được hoạt động của xã hội. Nhưng cho đến nay, việc xây dựng ngân hàng dữ liệu ở Việt Nam chưa có quy mô rộng lớn. Vì vậy, cần có sự đầu tư lớn dựa trên những nghiên cứu về kho tàng ngôn ngữ tiếng Việt và những thuật ngữ chuyên ngành cũng như những phương pháp xây dựng ngân hàng dữ liệu cho phù hợp, phản ánh mọi hoạt động của tiếng Việt. Cũng cần nghiên cứu xây dựng kho cơ sở dữ liệu một cách khoa học, toàn diện, có đầy đủ các kênh thông tin: kênh chữ, kênh hình và kênh tiếng.

2. Nội dung

2.1. Các loại cơ sở dữ liệu trong từ điển bách khoa

Kênh chữ. Là phương pháp thực hành về việc chuyển dữ liệu ngôn ngữ sống thành các cuốn từ điển.

Từ điển nói chung là sự miêu tả cái vốn của từ vựng được sử dụng bởi các thành viên của cộng đồng ngôn ngữ. Và điểm xuất phát cho sự miêu tả này là nguồn ngữ liệu sống mà các thành viên của cộng đồng ngôn ngữ ấy sử dụng trong khi họ giao tiếp với nhau.

Đối với từ điển ngữ văn, tư liệu là phần quan trọng, nên cũng cần một kho dữ liệu lớn. Ngoài ra còn phải có ngân hàng dữ liệu với hàng triệu âm tiết được tính toán kĩ về nguồn gốc, tức là vừa tinh vừa nhiều và đủ độ tin cậy. Vì vậy việc đầu tư đúng đắn dựa trên nghiên cứu về kho tàng ngôn ngữ tiếng Việt cũng như phương pháp xây dựng ngân hàng dữ liệu sao cho phù hợp, phản ánh được mọi hoạt động của tiếng Việt ở mọi phong cách sử dụng ngôn ngữ, mọi nguồn sách báo, khu vực địa lý và tính chất xã hội.

Đối với “Từ điển Bách khoa Việt Nam” chẳng hạn, là bộ từ điển bách khoa của nhiều chuyên ngành biên soạn. Các thuật ngữ khoa học do các chuyên ngành sử dụng cũng chưa có sự thống nhất và chuẩn hoá mang tính quốc gia.

Hiện nay, việc sử dụng thuật ngữ trong từ điển bách khoa cũng còn chưa có sự thống nhất dẫn đến hạn chế hiệu quả tiếp nhận thông tin, thậm chí gây hiểu nhầm cho người đọc. Kinh nghiệm biên soạn bộ “Từ điển Bách khoa Việt Nam” (4 tập) cho thấy, do chưa thống nhất được thuật ngữ nên việc biên soạn đã gặp không ít khó khăn, trùng lặp nhiều.

Ban biên soạn chuyên ngành chưa đối sánh được mức độ nông sâu các ngành nên có thể hoặc đã đưa vào quá nhiều mục từ chuyên sâu hoặc có thể đã bỏ sót mục từ quan trọng.

Nguyên nhân dẫn đến những sai sót trong quá trình biên soạn là do một phần vì chưa xây dựng được một ngân hàng dữ liệu thống nhất, rõ ràng và gần như không có sự liên kết giữa các đơn vị để xây dựng ngân hàng dữ liệu.

Kênh hình. Từ điển bách khoa bao gồm một số bản đồ, tranh ảnh, hình minh hoạ màu hoặc đen trắng. Các bản đồ các châu lục, một số nước trên thế giới, bản đồ nước Việt Nam và bản đồ chính trị các tỉnh, thành của Việt Nam. Tranh ảnh minh hoạ phần lớn là để thay thế cho việc giải thích các mục từ hoặc minh hoạ nội dung. Các tranh ảnh nghệ thuật được lựa chọn từ các tác phẩm đặc sắc của dân tộc và của thế giới.

Hệ thống hình ảnh minh hoạ được chọn lọc theo các chủ đề, ví dụ hình nhân vật; đền chùa, di tích, bản đồ các cuộc chiến tranh, các trận đánh; các hình ảnh về sinh vật, thực vật… cũng được thu thập trên cơ sở truyền thống và rất thủ công. Do vậy, khâu dữ liệu cũng phải coi là một công việc thực sự quan trọng, độc lập, có vị trí gần ngang bằng với kênh chữ.

Kênh âm thanh. Trên thế giới, quá trình áp dụng công nghệ tin học vào các công trình khoa học đã có từ rất lâu, trong đó xuất hiện theo hướng đa phương tiện tức là cả kênh hình, kênh chữ và kênh âm thanh, ví dụ bộ “Bách khoa toàn thư Encata” của hãng Microsoft, “Bách khoa toàn thư về Chiến tranh thế giới I và II” của Softkey Multimedia Inc… Ở Việt Nam, cũng đã xuất hiện dạng này như Từ điển Lạc Việt, CD-ROOM về Việt Nam.

Từ điển làm trên đĩa CD-ROOM là loại từ điển động cả cả 3 thành phần: văn bản - hình ảnh (tĩnh và động) - âm thanh, được thiết kế theo yêu cầu của nguồn cung cấp dữ liệu.

2.2. Phương pháp xây dựng ngân hàng dữ liệu trong từ điển bách khoa

2.2.1. Nguyên tắc xây dựng

Có 3 phần:

Phần 1, bao gồm:

* Nguồn dữ liệu sống cho từ điển

Căn cứ vào mục đích nghiên cứu, sử dụng, có thể phân loại như sau: dữ liệu viết, dữ liệu nói, dữ liệu kết hợp. Theo chuyên ngành, các dữ liệu khoa học phổ biến, dữ liệu ngôn ngữ học ứng dụng, dữ liệu khoa học và công nghệ, dữ liệu về các ngành khoa học xã hội và mĩ thuật, v.v.

Đặc biệt, trong thuật ngữ khoa học là thuật ngữ chuyên ngành đòi hỏi các kiến thức về chuyên môn và nỗ lực của người biên soạn. Sự chọn lựa dữ liệu được thể hiện ở việc sử dụng các thuật ngữ đúng trong các chuyên ngành. Trong từ điển bách khoa, ngôn ngữ được sử dụng là ngôn ngữ chuyên ngành. Thuật ngữ chuyên ngành thì rất nhiều., các thuật ngữ này xuất hiện một cách tự phát trong lòng ngôn ngữ toàn dân, ví dụ: chuột - chuột (của máy tính), cũng như một cách có ý thức bằng cách vay mượn từ các ngôn ngữ khác, được thể hiện rõ ràng trong các khoa học như thực vật, sinh học hoá học, điện tử. Trong quá trình xây dựng nguồn dữ liệu để biên soạn từ điển bách khoa, cần phải chuẩn thuật ngữ của các ngành khoa học và bổ sung các thuật ngữ mới để xây dựng kho dữ liệu chuẩn quốc gia về khoa học công nghệ. Công đoạn xây dựng phải tìm quy luật hình thành khái niệm, thuật ngữ; một số quan điểm khác nhau trong việc sử dụng khái niệm, thuật ngữ. Đối với tư liệu của nước ngoài thì tìm hiểu thuật ngữ của các nước ở trên thế giới dùng trong các bộ từ điển bách khoa và bách khoa toàn thư như bộ Bách khoa toàn thư Americana, bộ Bách khoa toàn thư Britannica, bộ Đại bách khoa toàn thư Xô viết, bộ Đại bách khoa toàn thư Trung Quốc.

Đối với tư liệu trong nước, chuẩn thuật ngữ khoa học tự nhiên trong sách giáo khoa phổ thông, giáo trình đại học, từ điển chuyên ngành, Từ điển Bách khoa Việt Nam, các tạp chí chuyên ngành; chuẩn một số khái niệm, thuật ngữ khoa học xã hội trong các sách giáo khoa và tạp chí chuyên ngành. Sau đó đánh giá tổng quan các khái niệm, thuật ngữ và phân tích sự bất cập khi các khái niệm, thuật ngữ không thống nhất.

Xây dựng nguồn dữ liệu sống cho từ điển bách khoa là một công việc phức tạp, đòi hỏi sự cẩn thận, chính xác. Do vậy cần phải có một bộ máy làm việc thật tốt.

* Lên kế hoạch cho cuốn từ điển

Cần có một đội ngũ cộng tác viên để lựa chọn và thẩm định các dữ liệu; phối hợp với một số đối tác là các chuyên gia tin học để sử dụng và truy cập được kho dữ liệu bằng máy tính; cần đến chuyên gia ngôn ngữ học để giúp phân tích dữ liệu một cách có hiệu quả.

Việc lập kế hoạch biên soạn cho từ điển bách khoa thường xuyên không tính toán hết khả năng hoàn thành và thời gian cần thiết cho việc biên soạn. Vậy, sau khi xác định xong cấu trúc vĩ mô và cấu trúc vi mô của cuốn từ điển bách khoa, cần xác định luôn phương pháp biên soạn và dự kiến tiến độ biên soạn thật cụ thể cho từng giai đoạn khác nhau.

* Lên kế hoạch cho mục từ

Vấn đề này cũng phải trải qua nhiều công đoạn khác nhau, ví dụ soạn một mục từ thuật ngữ thì lấy các thông tin như thế nào; biên soạn một mục từ khái niệm thì lấy những thông tin nào là cần thiết và nội dung định nghĩa nông, sâu như thế nào là hợp lý. Đối với các mục từ danh nhân đều phải có quy tắc nhất định.

Việc lựa chọn các mục từ đưa vào từ điển bách khoa phải xuất phát từ mục đích, phương châm và quy mô biên soạn, ưu tiên chọn những tri thức văn hoá, khoa học cơ bản nhất có tính phổ quát nhất trong kho tàng tri thức của dân tộc và của thế giới hiện đại. Số lượng mục từ được lựa chọn trong từng ngành phụ thuộc vào tình hình nghiên cứu khoa học và tổng kết đánh giá của mỗi ngành.

Ví dụ: Về mục từ danh nhân, khi biên soạn phải có một sơ đồ mẫu như sau:

- họ và tên (biệt hiệu, bút danh, nguyên dạng tên nước ngoài);

- năm sinh, năm mất (đối với một số lãnh tụ, nhân vật nổi tiếng ghi ngày, tháng, năm sinh, năm mất, nơi mất);

- quốc tịch, dân tộc, tôn giáo (nếu có);

- quá trình hoạt động chính trị, xã hội, văn hoá, khoa học, quân sự (những mốc thời gian chính, chức vụ chính);

- những thành tựu, những cống hiến, những sáng tạo khoa học, văn hoá, nghệ thuật, quân sự;

- khen thưởng, giải thưởng (quốc gia, quốc tế);

- đánh giá, bình luận (không bắt buộc, tuỳ thuộc từng loại danh nhân và nhân vật mà lược bớt các điểm trên).

Mục từ về ngành khoa học cơ bản, bao gồm mục từ khái niệm về khoa học cơ bản (toán, vật lý, ngôn ngữ, địa lý…) và các bộ môn chính, các chuyên ngành hẹp (hình học, cơ học, bản đồ), có thể đưa ra một sơ đồ mẫu sau:

- định nghĩa (đối tượng và nhiệm vụ);

- liệt kê các bộ môn, chuyên ngành hẹp, liên ngành;

- lịch sử phát triển và những phát minh (thời gian xuất hiện, người sáng tạo, -  - người đặt cơ sở, quá trình phát triển, xu hướng hiện đại, các phương pháp cơ bản, những thành tựu, phát minh quan trọng);

- quan hệ với các ngành khoa học khác (vai trò với các ngành khoa học khác, đối với kĩ thuật, đối với công nghiệp và đời sống xã hội);

- lĩnh vực áp dụng;

- tình hình hiện tại, những sáng tạo mới nhất, ứng dụng ở Việt Nam.

Phần 2, bao gồm:

- Phân tích dữ liệu: Để giải quyết được các vấn đề ngôn ngữ và thuật ngữ khác nhau trong dữ liệu, khi xây dựng dữ liệu cần có lượng đáng kể chú giải thông tin về thuật ngữ, là phần giải thích các thông tin đặc thù, làm rõ nghĩa cho các thuật ngữ, khái niệm, ví dụ, chú giải về tên tác giả, giới tính, tên tác phẩm, năm xuất bản…

- Xây dựng cơ sở dữ liệu (gồm các thuật ngữ, các khái niệm): quy luật hình thành các thuật ngữ, khái niệm; một số quan điểm khác nhau trong việc sử dụng các thuật ngữ, khái niệm; lịch sử hình thành và phát triển các thuật ngữ, khái niệm về khoa học tự nhiên và khoa học xã hội; thuật ngữ các ngành khoa học ứng dụng, công nghiệp, nông nghiệp, thương mại, điện tử, xây dựng; một số khái niệm, thuật ngữ trong sách giáo khoa phổ thông, giáo trình đại học, từ điển chuyên ngành, các tạp chí chuyên ngành; một số khái niệm, thuật ngữ khoa học xã hội trong sách giáo khoa phổ thông, giáo trình đại học, từ điển chuyên ngành, các tạp chí chuyên ngành…

Khi xây dựng dữ liệu cần lưu ý đến mục đích sử dụng khối liệu và người sử dụng khối liệu được tạo lập. Quá trình xây dựng dữ liệu cho thấy mỗi nhóm người sử dụng dữ liệu đều có nhu cầu riêng của mình. Ví dụ, đối với người sử dụng là một chuyên gia một chuyên ngành công nghệ, thì người xây dựng dữ liệu cần tuân thủ đầy đủ các nguyên tắc về tính điển hình, kích cỡ xác định và phong cách ngôn ngữ của chuyên ngành đó bên cạnh một lượng dự trữ và cụm từ của từ điển thông dụng. Hoặc đối với người sử dụng là một nhà từ vựng học thì ngoài nguồn từ và cụm từ của từ điển thông dụng ra còn cần một lượng các đơn vị từ theo chuyên ngành cụ thể và các phương tiện ngôn ngữ kèm theo.

Phần 3, bao gồm:

Biên soạn mục từ: dựa vào nguồn dữ liệu đã có sẵn rồi chọn lọc các thuật ngữ, khái niệm, cần có một số sơ đồ các mục từ cùng loại và một số sơ đồ các mục từ khác trong ngành, ví dụ sơ đồ về các mục từ danh nhân, mục từ về các cơ quan tổ chức hiệp hội; các sơ đồ về các tổ chức chính trị - xã hội; sơ đồ về các cơ quan nhà nước, các bộ, tổng cục; sơ đồ về các tổ chức kinh tế, các tổ chức văn hoá giáo dục; sơ đồ về các mục từ về khoa học cơ bản; sơ đồ về các mục từ về thuật ngữ chuyên ngành và mục từ khái niệm đề tài (chủ yếu cho các ngành khoa học xã hội).

Quan trọng nhất là làm thế nào để chuyển dữ liệu ngôn ngữ sống thành cuốn từ điển bách khoa. Muốn biên soạn được cuốn từ điển bách khoa có chất lượng cần có sự can thiệp của máy tính điện tử và phải trải qua các bước sau đây:

Từ sơ đồ trên, chúng ta cần đến lý thuyết ngôn ngữ học để giúp phân tích dữ liệu một cách có hiệu quả. Và những cuốn từ điển có chất lượng đều xuất phát từ cứ liệu trong các kho ngữ liệu.

Người biên soạn từ điển phải phụ thuộc vào một số công nghệ mới, như: máy tính có bộ xử lý CPU nhanh; cứ liệu trong kho dữ liệu được xử lý bằng phần mềm. Và khi từ điển được biên soạn xong, công nghệ máy tính còn cung cấp một số cách để đến tay người dùng.

2.2.2. Các nguồn tư liệu để xây dựng ngân hàng dữ liệu

Khi xây dựng ngân hàng dữ liệu để biên soạn từ điển bách khoa cần chú ý đến khối lượng ngôn ngữ được tạo dựng với nguồn từ điển thông dụng của ngôn ngữ toàn dân, đồng thời phải xây dựng các phong cách ngôn ngữ của một chuyên ngành điển hình, kích cỡ xác định và một lượng dự trữ từ và cụm từ của từ điển thông dụng.

Ngoài ra hệ thống hình ảnh minh hoạ tĩnh sẽ được chọn lọc theo các chủ đề như: Hình nhân vật (cân đối tỉ lệ theo từng ngành, theo quốc gia, khu vực…); các di tích lịch sử như đình, đền, các danh thắng được UNESCO công nhận, các phụ bản của Việt Nam và thế giới; bản đồ các quốc gia; các nhà máy; các trang thiết bị; các tranh ảnh nghệ thuật, v.v.

Các nguồn tư liệu cả kênh hình và kênh chữ đều có thể tham khảo từ các loại hình sách báo, tạp chí, sách giáo khoa, các bộ từ điển bách khoa và bách khoa thư của quốc gia và thế giới để thực hiện.

3. Kết luận

- Biên soạn từ điển bách khoa là một công việc hao tốn thời gian và tiền bạc đòi hỏi phải có kĩ năng ngôn ngữ học đặc biệt. Phải trang bị được những tri thức thực sự cần thiết về từ điển học trong những kho ngữ liệu lớn là nhiệm vụ của người biên soạn.

- Muốn biên soạn được bộ từ điển bách khoa chuẩn mực, trước hết phải xây dựng được một ngân hàng dữ liệu khoa học với sự hỗ trợ đắc lực của công nghệ tin học hiện đại nhất.

- Đề ra các phương pháp biên soạn cụ thể, chính xác.

- Xây dựng được một đội ngũ biên soạn có nghiệp vụ cao và giàu nhiệt huyết, có hiểu biết sâu sắc các vấn đề liên quan tới việc nhận diện tri thức, biết xử lý các vấn đề tổng hợp tri thức để hệ thống hóa thành công trình từ điển bách khoa phục vụ mọi người.

 

TÀI LIỆU THAM KHẢO

[1] Giáo trình cơ sở dữ liệu, Trường Đại học Bưu chính Viễn thông.

[2] Hội đồng Quốc gia Chỉ đạo biên soạn Từ điển Bách khoa Việt Nam, Từ điển Bách khoa Việt Nam, NXB Từ điển Bách khoa, Hà Nội, 2002 (tập 2), 2003 (tập 3).

[3] Đào Hồng Thu, Ngôn ngữ học khối liệu và những vấn đề liên quan, quyển 1, NXB Khoa học Xã hội, Hà Nội, 2009.

[4] Hồ Hải Thuỵ, Hai cuốn sách mới dạy cách làm từ điển, Tạp chí Từ điển học & Bách khoa thư, số 4, 2010.

 

Tạp chí Từ điển học & Bách khoa thư, số 5 (25) 2013